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计算 机 技术 飞速 发 展 ， 人 们 对 计算 机 使 用 技能 的 要 求 也 越 来 越 高 。 在 编写 软件 时 ,大 家 既 
希望 有 超 高 的 效率 ， 又 希望 这 门 语言 简单 易 用 。 这 种 鱼 与 能 掌 皆 得 的 要 求 的 确 很 高 ，Python 
编程 语言 恰好 符合 这 么 苛刻 的 要 求 。 

Python 的 执行 效率 仅 比 效率 之 王 C 略 差 一 筹 ， 在 简单 易 用 方面 Python 也 名 列 三 甲 。 可 以 
说 Python 在 效率 和 简单 之 间 达 到 了 平衡 。 另 外 ，Python 还 是 一 门 胶水 语言 ， 可 以 将 其 他 编程 
语言 的 优点 融合 在 一 起 ， 达 到 1+1>2 的 效果 。 这 也 是 Python 如 今 使 用 人 数 越 来 越 多 的 原因 。 

Python 语言 发 展 迅速 ， 在 各 行 各 业 都 发 挥 独特 的 作用 。 在 各 大 企业 、 学 校 、 机 关 都 运行 
着 Python 明星 程序 。 但 就 个 人 而 言 ， 运 用 Python 最 多 的 还 是 网 络 爬 虫 OX HERE rh ob A. 
网 页 提取 数据 ， 不 涉及 深度 、 广 度 算法 朴 虫 搜索 )。 在 网 络 上 经 常 更 新 的 数据 ， 无 须 每 次 都 打 
开 网 页 浏览 ， 使 用 息 虫 程序 ， 一 键 获取 数据 ， 下 载 保存 后 分 析 。 考 虑 到 Python MEREN E 
的 资料 虽 多 , 但 大 多 都 不 成 系统 , 难以 提供 系统 有 效 的 学 习 。 因 此 笔者 抛砖引玉 ,编写 了 这 本 
AK Python 网 络 息 虫 的 书 ， 以 供 读者 学 习 参 考 。 

Python 简单 易学 , Python 扑 虫 也 不 复杂 。 只 需要 了 解 了 Python 的 基本 操作 即 可 自行 编写 。 
本 书 中 介绍 了 几 种 不 同类 型 的 Python 爬虫 ， 可 以 针对 不 同情 况 的 站 点 进行 数据 收集 。 


本 书 特色 


€ 附带 全 部 源 代 码 。 为 了 便于 读者 理解 本 书 内 容 ， 作 者 已 将 全 部 的 源 代 码 上 传 到 网 络 ， 
供 读者 下 载 使 用 。 读 者 通过 代码 学 习 开 发 思路 ， 精 简 优 化 代码 。 

€ 涵盖 了 Linux&Windows 上 模块 的 安装 配置 。 本 书包 含 了 Python 模块 源 的 配置 、 模 块 
的 安装 ， 以 及 常用 IDE 的 使 用 。 

© ”实战 实例 。 通 过 常用 的 实例 ， 详 细 说 明 网 络 爬 虫 的 编写 过 程 。 


本 书 内 容 


本 书 共 10 章 ， 前 面 4 章 简单 地 介绍 了 Python 3.6 的 基本 用 法 和 简单 Python 程序 的 编写 。 
38 5 章 的 Scrapy 扑 虫 框架 主要 针对 一 般 无 须 登录 的 网 站 ， 在 息 取 大 量 数 据 时 使 用 Scrapy 会 很 
方便 。 第 6 章 的 Beautiful Soup MERE SEM “+ ARR”. Beautiful Soup 爬虫 主要 针对 
一 些 爬 取 数 据 比较 少 的 , 结构 简单 的 网 站 。 第 7 章 的 Mechanize 模块 , 主要 功能 是 模拟 浏览 器 。 


它 的 作用 主要 是 针对 那些 需要 登录 验证 的 网 站 。 第 8 章 的 Selenium 模块 ， 主 要 功能 也 是 模拟 
浏览 器 ， 它 的 作用 主要 是 针对 JavaScript 返回 数据 的 网 站 。 第 9 章 的 Pyspider 是 由 国人 自 产 的 
EHHE., Pyspider 框架 独 具 一 格 的 Web 接口 让 疏 虫 的 使 用 更 加 简单 。 第 10 章 简单 介绍 了 反 
疏 虫 技术 ， 使 读者 编写 的 稚 虫 可 以 绕 过 简单 的 反 疏 虫 技术 更 加 灵活 地 获取 数据 。 

本 书 用 于 Python 3 编程 与 Python 3 网 络 爬 虫 快速 入 门 。 另 外 ， 为 了 让 读者 多 了 解 几 个 疏 
虫 框架 ， 本 书 也 介绍 了 Python 2.7 下 运行 的 Mechanize 5j Pyspider 工具 。 


修订 说 明 


本 书 第 1 版 使 用 了 Python 2.7， 由 于 Python 2 未 来 不 再 被 官方 支持 ， 今 后 Python 将 逐渐 
转换 到 Python 3 版 本 。Python 3 基本 上 可 以 与 Python 2 兼容 ， 但 细节 方面 略 有 差异 ， 比 如 某 
些 模块 的 名 称 (Python2 中 的 urllib2 在 Python 3 中 变 成 了 urllib.request)。 本 次 修订 将 所 有 支持 
Python 3 KERERE T Python 3 的 版 本 ， 更 加 符合 主流 。 目 前 暂时 不 支持 Python 3、 只 
支持 Python 2 HJER (Mechanize 与 Pyspider) 也 修订 了 代码 ， 改 正 了 一 些 因为 目标 网 站 改版 
而 造成 仆 虫 不 能 使 用 的 问题 。 


源 代码 下 载 
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为 什么 选择 Python KS P928 ME d: ? 

众所周知 Python 的 运行 速度 并 不 是 最 快 的 ， 比 不 上 Java， 比 不 上 C++， 更 比 不 上 传说 中 
的 速度 效率 之 王 C。 学 习 资 料 的 完备 也 不 在 三 甲 之 内 ， 市 面 上 讲解 C&C++ 的 书籍 绝对 是 
Python 的 几 倍 甚至 几 十 倍 。 使 用 的 人 数 也 不 是 最 多 ， 目 前 还 是 使 用 Java、C、C++ 的 人 要 更 
多 一 些 。 

那么 ， 为 什么 会 选择 Python? 

首先 是 它 简 单 易学 ， 简 单 到 没有 学 过 任何 编程 语言 的 人 稍微 看 下 资料 ， 再 看 几 个 示例 就 
可 以 编写 出 可 用 的 程序 ， 其 次 它 是 一 门 解释 型 编程 语言 ， 编 写 完毕 后 可 直接 执行 ， 无 须 编 
$, RIL Bug 后 立即 修改 ， 省 下 了 无 数 的 编译 时 间 ; 还 有 它 的 代码 重用 性 高 ， 可 以 把 包含 某 
个 功能 的 程序 当成 模块 代入 其 他 程序 中 使 用 ， 因 而 Python 的 模块 库 庞 大 到 丽 怖 ， 几 乎 是 无 所 
不 包 ; 最 后 就 是 因为 它 的 跨 平台 性 ， 几 乎 所 有 的 Python 程序 都 可 以 不 加 修改 地 运行 在 不 同 的 
操作 平台 ， 都 能 得 到 同样 的 结果 。 这 么 多 的 优点 都 集中 在 这 个 语言 中 ， 因 此 写 没有 特殊 要 求 
的 网 络 息 虫 最 好 的 选择 就 是 使 用 Python. 


Python 简介 


了 解 一 门 语言 ， 我 们 先 从 它 的 历史 说 起 。Python 的 应 用 越 来 越 广泛 ， 它 最 初 是 用 来 做 什 
么 用 的 ， 之 后 又 如 何 发 展 的 ， 了 解 这 些 ， 我 们 就 更 能 了 解 Python。 


1.1.1. Python 的 历史 由 来 

Python 是 一 种 开源 的 面向 对 象 的 脚本 语言 ， 它 起 源 于 1989 ER, Hf, CWI ( 阿 姆 斯 
特 丹 国家 数学 和 计算 机 科学 研究 所 ) 的 研究 员 Guido van Rossum 需要 一 种 高 级 脚本 编程 语 
言 ， 为 其 研究 小 组 的 Amoeba 分 布 式 操作 系统 执行 管理 任务 。 为 创建 新 语言 ， 他 从 高 级 数学 
语言 ABC (ALL BASIC CODE) 汲取 了 大 量 语法 ， 并 从 系统 编程 语言 Modula-3 借鉴 了 错误 
处 理 机 制 。Van Rossum 把 这 种 新 的 语言 命名 为 Python. 〈 大 蟒蛇 ) 一 一 来 源 于 BBC 当时 正在 
热 播 的 喜剧 连续 剧 Monty Python。 

ABC 是 由 Guido 参加 设计 的 一 种 教学 语言 。 就 Guido 本 人 看 来 ，ABC 这 种 语言 非常 优 


美和 强大 ， 是 专门 为 非 专业 程序 员 设 计 的 。 但 是 ABC 语言 并 没有 成 功 ， 究 其 原因 ，Guido 认 
为 是 非 开放 造 成 的 。Guido 决心 在 Python 中 避免 这 一 错误 。 同 时 ， 他 还 想 实 现在 ABC 中 内 
现 过 但 未 曾 实现 的 东西 。 

就 这 样 ，Python 在 Guido 手中 诞生 了 。 可 以 说 ，Python 是 从 ABC 发 展 起 来 ， 并 且 结 合 
了 Unix shell 和 C 的 习惯 。Python 源 代码 遵循 GPL (GNU General Public License) 协议 ， 所 
以 任何 个 人 用 户 都 可 以 免费 使 用 。 


1.1.2 Python 的 现状 

Python 于 1991 年 初 公开 发 行 。 由 于 功能 强大 并 采用 开源 方式 发 行 ，Python 发 展 得 很 
快 ， 用 户 越 来 越 多 ， 形 成 了 一 个 强大 的 社区 力量 。2001 年 ，Python 的 核心 开发 团队 移师 
Digital Creations 公司 ， 该 公司 是 Zope( 一 个 用 Python 编写 的 Web 应 用 服务 器 ) 的 创始 者 。 
大 家 可 以 到 http://www.python.org/ 上 了 解 最 新 的 Python 动态 和 资料 。 

如 今 ，Python 已 经 成 为 最 受 欢迎 的 程序 设计 语言 之 一 。2011 年 1 月 ， 它 被 TIOBE 编程 
语言 排行 榜 评 为 2010 年 年 度 语言 。 自 从 2004 年 以 后 ，Python 的 使 用 率 呈 线性 增长 。 


1.1.3 Python 的 应 用 
Python 应 用 广泛 ， 特 别 适 用 于 以 下 几 个 方面 。 
© 系统 编程 : 提供 API (Application Programming Interface， 应 用 程序 编程 接口 ) ， 能 

方便 地 进行 系统 维护 和 管理 ，Linux 下 标志 性 语言 之 一 ， 是 很 多 系统 管理 员 理 想 的 
编程 工具 。 
€ AGA: 有 PIL、Tkinter 等 图 形 库 支 持 ， 能 方便 进行 图 形 处 理 。 

数学 处 理 : NumPy 扩展 提供 大 量 与 许多 标准 数学 库 的 接口 。 

© 文本 处 理 : Python 提供 的 re 模块 能 支持 正则 表达 式 ， 还 提供 SGML. XML 分 析 模 
块 ， 许 多 程序 员 利用 Python 进行 XML 程序 的 开发 。 

e ”数据 库 编程 :程序 员 可 通过 遵循 Python DB-API (数据 库 应 用 程序 编程 接口 ) 规范 
的 模块 与 Microsoft SQL Server, Oracle, Sybase, DB2, MySQL, SQLite 等 数据 库 
i843. Python 自 带 有 一 个 Gadfly 模块 ， 提 供 了 一 个 完整 的 SQL 环境 。 

e Jii. 提供 丰富 的 模块 支持 sockets 编程 ， 能 方便 、 快 速 地 开发 分 布 式 应 用 程 
序 。 很 多 大 规模 软件 开发 计划 ， 例 如 Zope. Mnet 及 BitTorrent, Google 都 在 广泛 地 使 
用 它 。 

€ Web 编程 : 应 用 的 开发 语言 ， 支 持 最 新 的 XML 技术 。 

e 多 媒体 应 用 : Python 的 PyOpenGL 模块 封装 了 OpenGL 应 用 程序 编程 接口 ， 能 进行 
二 维和 三 维 图 像 处 理 。PyGame 模块 可 用 于 编写 游戏 软件 。 

€ PYMO 引擎 : PYMO 的 全 称 为 Python Memories Off， 是 一 款 运 行 于 Symbian 
S60V3. Symbian3. S60V5. Symbian3. Android 系统 上 的 AVG 游戏 引擎 。 因 其 基 
于 Python 2.0 平台 开发 ， 并 且 适 用 于 创建 秋之 回忆 (memories off) 风格 的 AVG 游 


戏 ， 故 命名 为 PYMO. 


不 只 个 人 用 户 推崇 Python, PAAP EX} Python 青睐 有 加 ， 以 下 是 明星 企业 的 应 用 


项 目 : 


Reddit: 社交 分 享 网 站 ， 最 早 用 Lisp 开发 ， 在 2005 年 转 为 Python。 
Dropbox: 文件 分 享 服务 。 

ERA: 图 书 、 唱 片 、 电 影 等 文化 产品 的 资料 数据 库 网 站 。 

Django: 鼓励 快速 开发 的 Web 应 用 框架 。 

Fabric: A PERRA LPE Linux 主机 的 程序 库 。 

EVE: 网 络 游戏 EVE 大 量 使 用 Python 进行 开发 。 

Blender: 以 C 与 Python 开发 的 开源 3D 绘图 软件 。 

BitTorrent: bt 下 载 软件 客户 端 。 

Ubuntu Software Center: Ubuntu 9.10 版 本 后 自 带 的 图 形 化 包 管 理 器 。 
YUM: 用 于 RPM 兼容 的 Linux 系统 上 的 包 管理 器 。 

Civilization IV: 游戏 《文明 4》。 

Battlefield 2: 游戏 《战地 2》。 

Google: 谷歌 在 很 多 项 目 中 用 Python 作为 网 络 应 用 的 后 端 ， 如 Google Groups. 
Gmail、Google Maps 等 ，Google App Engine 支持 Python 作为 开发 语言 。 
NASA: 美国 宇航 局 ， 从 1994 年 起 把 Python 作为 主要 开发 语言 。 
Industrial Light & Magic: 工业 光 魔 ， 乔 治 。 卢 卡 斯 创立 的 电影 特效 公司 。 
Yahoo! Groups: 雅虎 推出 的 群 组 交流 平台 。 

YouTube: 视频 分 享 网 站 ， 在 某 些 功能 上 使 用 到 Python。 

Cinema 4D: 一 套 整 合 3D 模型 、 动 画 与 绘图 的 高 级 三 维 绘图 软件 ， 以 其 高 速 的 运算 
和 强大 的 泻 染 插件 著称 。 

Autodesk Maya: 3D 建 模 软件 ， 支 持 Python 作为 脚本 语言 。 

gedit: Linux 平台 的 文本 编辑 器 。 

GIMP: Linux 平台 的 图 像 处 理 软件 。 

Minecraft: Pi Edition: 游戏 《Minecraft》 的 树 莓 派 版 本 。 

MySQL Workbench: 可 视 化 数据 库 管 理工 具 。 

Digg: 社交 新 闻 分 享 网 站 。 

Mozilla: 为 支持 和 领导 开源 的 Mozilla 项 目 而 设立 的 一 个 非 营利 组 织 。 
Quora: 社交 问答 网 站 。 

Path: 私密 社交 应 用 。 

Pinterest: 图 片 社 交 分 享 网 站 。 

SlideShare: 幻灯 片 存储 、 展 示 、 分 享 的 网 站 。 

Yelp: 美国 商户 点 评 网 站 。 

Slide: 社交 游戏 /应 用 开发 公司 ， 被 谷歌 收购 。 


还 有 很 多 企业 级 的 应 用 这 里 就 不 一 一 列举 了 。Python 适用 于 不 同 的 场合 、 不 同 的 人 群 ， 


是 适应 性 非常 强 的 一 门 语言 。 


Python 3.6.4 开发 环境 配置 


Python 在 PC 三 大 主流 平台 (Windows、Linux 和 OS X) 都 可 使 用 。 在 这 里 只 讲解 
Windows 和 Linux 下 的 开发 环境 配置 。Windows 平台 以 Windows 7 为 例 ，Linux 平台 以 
Debian 8 系统 为 例 。Python 目前 主要 有 两 个 版 本 ，Python fil Python 3. 

目前 ，Python 2 的 最 终 版 本 是 Python 2.7.14，Python 3 的 最 终 版 本 是 Python 3.6.4。 虽 然 
目前 Python 2 和 Python 3 的 拥 艳 暂时 棋 逢 对 手 ， 但 相信 Python 3 才 是 未 来 的 方向 。 所 以 本 书 
的 程序 将 以 Python 3 为 主 。 


a 在 Windows 系统 中 ， 如 果 同 时 安装 了 Python 2 和 Python 3， 这 两 个 程序 的 名 字 都 是 
| Python.exe， 只 能 以 安装 目录 来 区 分 Python 2 和 Python 3 了 。Linux 系统 还 好 区 分 ， 可 以 
通过 程序 名 来 区 分 。 


1.2.1 Windows 下 安装 Python 
(1) 打开 Chrome 浏览 器 ， 在 地 址 栏 输入 Python 官网 地 址 www.python.org， 如 图 1-1 所 


Vf Welcome to Pythen.or x 


€ > Q | @ Python So! 


ndation [US] |https//www.python.ora. 


Python is a programming language that lets you work quickly and 


ntegrate sy 1s more effectively. » Learn More 


© Get Started & Download 


Whether you're new to programming or an 
experienced developer, it's easy to learn and 


use Python. 


Start with our Beginner's Guide 


€) Docs 

Documentation for Python's standard library, 
along with tutorials and guides, are available 
online. 


docs.python.org 


Python source code and installers are available 
for download for all versions! Not sure which 


version to use? Check here. 


$ Jobs 

Looking for work or have a Python related 
position that you're trying to hire for? Our 
relaunched community-run job board is the 


place to go. 


jobs.python.org 


图 1-1 


Python 官网 


(2) 单 击 Python 3.6.4, HEA Python 3.6.4 的 下 载 页 面 ， 如 图 1-2 所 示 。 


(3) 按照 安装 的 Windows 系统 选择 下 载 的 安装 文件 。 示 例 系 统 是 Windows 7 64 位 ， 适 
合 当前 Windows 版 本 的 Python 安装 文件 有 3 个 ， 一 个 是 绿色 解压 缩 版 本 ， 一 个 是 正常 的 安 
装 版 本 ， 最 后 一 个 是 网 络 安装 版 本 。 绿 色 安 装 版 本 需要 自行 添加 环境 变量 。 正 常 的 安装 版 本 


安装 更 简单 一 些 。 所 以 这 里 下 载 的 是 Windows x86-64 executable installer. 


ha - O x 
5. Python Release Pythor x 
€ © Q |a Python sortwa..ndation [US] | https://www.python.org/downlo... Yr 
Mac OS X 64- MacOSX forMacOSX10.6and  9fba50521dffa9238ce85ad640abaa92 21778156 SIG 
bit/32.bit later 
installer 
Windows help ^ Windows 17cc49512c3a2b876f2ed8022e0afe92 — 8041937 SIG 
file 
Windowsx86- Windows for dzfb546fd4b189146dbefeba85e7266b 7162335 — SIG 
64 AMD64/EM64T/X64, 
embeddable not Itanium 
zip fle processors 
Windows — for bees746dc6ece6ab49573a9f54b5d0a1 31684744 SIG 
AMD64/EM64T/X64, 
not itanium 
processors 
Windowsx86- Windows — for 21525b3dl32celScaeGba96dT4961bSa 1320128 SIG 
64 web-based AMDG4/EMG4T/x64, 
Installer not itanium 
processors 
Windows x86 — Windows 15802be75a6246070d85b87b3f43f83f 6400788 — SIG 


embeddable 


图 1-2 Python F 


(4) 下 载 完毕 ， 得 到 安装 文件 python-3.6.4-amd64.exe。 以 管理 员 身 份 运行 安装 程序 ， 


开始 安装 Python 3.6， 如 图 1-3 所 示 。 


Install Python 3.6.4 (64-bit) 


Select Install Now to install Python with default settings, or choose 
Customize to enable or disable features. 


® Install Now 
C:\Users\king\AppData\Local\Programs\Python\Python36 


Includes IDLE, pip and documentation 
Creates shortcuts and file associations 


* Customize installation 
Choose location and features 


python 


Install launcher for all users (recommended) 


windows E Add Python 3.6 to PATH 


1-3. 安装 Python 


Python pj£&IE rh ScAk E 2 RIO 


(5) 单 击 Customize installation 按钮 ， 选 择 Python 安装 组 件 ， 将 全 部 的 组 件 都 选 上 ， 如 
图 1-4 所 示 。 


Optional Features 


mentation 
installs the Python documentation file. 


Installs tkinter and the IDLE development environment. 
thon test suite 
Installs the standard library test suite, 


Rer all users (requires elevation) 
Installs the global ‘py’ launcher to make it easier to start Python. 


python 
windows Cene 


图 14 选择 Python 组 件 
(6) 单 击 Next 按钮 后 ， 进 入 Python 环境 设置 界面 ， 如 图 1-5 所 示 。 


Advanced Options 
Install for all users. 
IV) Associate files with Python (requires the py launcher) 


Create shortcuts for installed applications 
[V] Add Python to environment variables 
j IV Precompile standard library 


El Download debugging symbols 
El Download debug binaries (requires VS 2015 or later) 


Customize install location 


C:\Program Files\Python36 
[mk | [anstat (comen ] 


python 
windows 


图 1-5 Python 安装 环境 


选择 Add Python to environment variables， 将 Python 加 入 系统 环境 变量 中 。 选 择 Install 
for all users， 人 允许 所 有 用 户 使 用 Python。 修 改 一 个 合适 的 安装 目录 。 单 击 Install 按钮 开始 安 
装 Python， 如 图 1-6 所 示 。 


#18 Python 环境 配置 


Setup was successful 


Special thanks to Mark Hammond, without whose years of 
freely shared Windows expertise, Python for Windows would 
still be Python for DOS. 


New to Python? Start with the online tutorial and 
documentation. 


See what's new in this release. 


图 1-6 安装 Python 


CD 单 击 Close 按钮 ， 整 个 安装 程序 完毕 。 验 证 Python 是 否 安装 成 功 。 单 击 桌面 左下 
角 的 “开始 ”菜单 ， 在 地 址 栏 输入 cmd.exe 后 按 Enter 键 ， 打 开 Windows 系统 命令 行程 序 ， 
如 图 1-7 所 示 。 


1-7 打开 系统 命令 行 工具 cmd.exe 
(8) 执行 命令 ， 验 证 Python， 如 图 1-8 所 示 。 


icrosoft Windows [hig 6.1.76611 


ILHA «c» 2089 Microsoft Corporation。 保 留 所 有 权利 。 
:\sers\king python -U ] 


'ython 3.6.4 


:sers\king}python -h 


sage: python [option] ... [-c cmd ! -m mod ! file | -] [arg] 
Options and arguments and corresponding environment variables): 


rh ? issue warnings about str(bytes instance), str(bytearray instance) 
and comparing bytes/bytearray with str. (-bb: issue errors? 
-B : don't write .pyc files on import; also PYTHONDONTWRITEBYTECODE=x 


-c cmd : program passed in as string (terminates option list) 
debug output from parser; also PYTHONDEBUG-x 

ignore PYTHON* environment variables (such as PYTHONPATH> 

print this help message and exit 《also —-help> 

inspect interactively after running script; forces a prompt even 
if stdin does not appear to be a terminal; also PYTHONINSPECT =x 

? isolate Python from the user's environment ‘implies -E and -s) 
run library module as a script (terminates option list) 

optimize generated bytecode slightly; also PYTHONOPTIMIZE-x 
remove doc-strings in addition to the -0 optimizations 

don't print version and copyright messages on interactive startup 
don't add user site directory to sys.path; also PYTHONNOUSERSITE 
don't imply 'import site' on initialization 


1-8 验证 Python 


由 此 可 见 Python 已 安装 成 功 ， 并 已 将 路 径 添 加 到 环境 变量 。 单 击 桌面 左下 角 的 “ 开 
始 ”|“ 所 有 程序 ”菜单 ， 单 击 Python 3.6 文件 夹 ， 就 可 以 看 到 Python 的 菜单 ， 如 图 1-9 所 
me 


@ Internet Explorer (64 向 

@ Internet Explorer 

@] Windows DVD Maker 

‘© Windows Media Center 

[E Windows Media Player 

E Windows Update 

局 Windows 传真 和 扫 所 

“A XPS Viewer 

@ rues 

gu 点 面 小 工具 库 

L Python 3.6 计算 机 
> IDLE (Python 3.6 64-bit) 
EP Python 3.6 (64-bit) 控制 面板 
[E Python 3.6 Manuals (64-bit) | 
2 Python 3.6 Module Docs (64-bit) 备 和 打 

D 附件 

j 启动 

J 维护 才 助 和 支持 


默认 程序 


图 1-9 Python 3.6 菜单 


在 安装 Python 的 同时 也 安装 了 Python 自 带 的 IDE 一 IDLE 和 本 地 的 模块 说 明文 档 。 这 
| 个 文档 的 说 明 很 详细 ， 一 般 只 需要 看 这 个 文档 就 足够 了 。 


至 此 Python 3 已 在 Windows 上 安装 验证 成 功 ， 可 以 愉快 地 使 用 Python T o 


1.2.2 Windows 下 安装 配置 pip 

上 文中 说 过 ，Python 有 几乎 无 限 的 第 三 方 模块 。 如 何 安装 这 些 第 三 方 模块 呢 ? 这 里 就 不 
得 不 说 到 easy. install 和 pip 了 。 

easy install 和 pip 都 是 Python 的 模块 安装 工具 ， 有 点 类 似 于 Debian 系统 的 apt-get. 
Fedora 系统 中 的 yum 或 者 Windows 系统 中 的 QQ 软件 管理 器 ， 都 是 一 键 安装 软件 工具 ， 所 
不 同 的 是 它们 只 负责 安装 Python 模块 。 老 版 本 中 的 Python 只 有 easy install. pip 可 以 认为 是 
easy install 的 高 级 版 本 ， 所 以 pip 和 easy install 任 选 其 一 即 可 ， 建 议 使 用 pip。 在 安装 
Python 时 已 经 选择 了 pip 组 件 〈 如 图 1-5 所 示 ) ， 就 无 须 再 次 安装 pip 了 ， 直 接 开始 配置 即 
可 。 

因为 pip 的 服务 器 安装 源 在 国外 ， 基 于 国内 糟糕 的 网 络 环境 ， 使 用 pip 安装 Python 第 三 
方 模块 将 是 一 个 很 痛苦 的 过 程 。 好 在 有 变通 的 方法 ， 在 国内 也 有 pip 的 镜像 源 ， 只 需要 在 pip 
的 配置 文件 中 将 pip 的 安装 源 指 向 国内 的 服务 器 ， 这 个 问题 就 解决 了 。 

根据 pip 的 指南 ，Windows 中 pip 的 配置 文件 是 %HOME%/pip/pip.ini (具体 到 当前 环 
境 ， 本 书 使 用 的 Windows 当前 用 户 是 king， 那 么 配置 文件 位 置 就 是 C:\Users\king\pip\pip.ini) o 
默认 情况 下 pip 文件 夹 和 pip.ini 文件 都 未 被 创建 ， 需 要 自行 创建 。 按 照 指 南 创建 好 文件 夹 和 
文件 后 ，pip.ini 文件 内 容 如 下 : 

[global] 

index-url = https://pypi.mirrors.ustc.edu.cn/simple 


#index-url = http://pypi.hustunique.com/simple 
#index.url = http://pypi.douban.com/simple 


这 里 一 定 是 pip.ini 文件 ， 而 不 是 pipinitxt, Æ Windows 中 显示 文件 后 级 名 ， 确 认 配 置 文 | 
| (0 件 的 文件 名 。 


修改 后 的 结果 如 图 1-10 所 示 。 


eja 8 
gO- h » HEN > EESC) >» EA > king » pip -|4| 22 P| 
aes Gary E. nm mR =- © 

E a 修改 日 期 xm 大 小 


"rog 
i TE 5) pip 2015/11/29 19:10 配置 设置 1KB 


iu 
T pip -记事 本 
SHA RAE 格式 (O) FEV BAH) 


[felobal] 
index-url = https: 


ustuni que. com/simple 
louban. com/simple 


index-url = http://pypi. 
#index-url = http://pypi. de 


1-10 修改 pip.ini 


图 1-10 中 准备 了 3 个 pip 源 ， 任 选 其 一 即 可 。 选 择 的 方法 就 是 在 不 需要 的 源 地 址 前 面 加 
上 # 符 号 。 下 面 来 验证 一 下 修改 源 地 址 是 否 成 功 ， 执 行 命令 : 
python -m pip install --upgrade pip 
此 命令 的 作用 是 更 新 pip 源 ， 结 果 如 图 1-11 所 示 。 
IBY C\Windows\system32\cmd.exe 


3\Users\king>python -n pip install —upgrade pip 
ollecting pip 


Down loading, packages/9c/32/004ce0852e0a127F07 
BE 7IEISE BSTIBCUPII7PIP-8 -1 .2—py2-py3-none-any.whl 1 .2MB 


i 417kB 658kB/s eta 6:06:62 
i 421kB 871kB/s eta 0:00:01 


图 1-11 更 新 pip 源 
可 以 看 出 ， 配 置 文件 中 的 新 源 已 经 起 作用 了 。 测 试 一 下 pip。 单 击 桌面 左下 角 的 “ 开 


始 ” 菜 单 ， 在 地 址 栏 中 输入 cmd.exe 后 按 Enter 键 ， 打 开 Windows 系统 命令 行程 序 。 执 行 命 
令 ， 如 图 1-12 所 示 。 


icrosoft Windows [版 本 6.1.?681] 
IVETE <c> 2089 Microsoft Corporation。 保 留 所 有 权利 。 


:Msers \kingpip v 


ip 9.0.1 from c:\program files\python36\lib\site—packages (python 3.6) 


#\sers\king pip -h 


sage: 
pip «command? [options] 


mJ» 


ommands = 


install Install packages. 

dounload Download packages. 

uninstall Uninstall packages. 

freeze Output installed packages in requirements format. 
list List installed packages. 

show Show information about installed packages. 


Verify installed packages have compatible dependen 


Search PyPI for packages. 
wheel Build wheels from your requirements. 
hash Compute hashes of package archives. 
completion A helper command used for command completion. 
help Show help for connands. 


图 1-12 测试 pip 


至 此 pip 已 完全 配置 完毕 。 


1.2.3 Linux 下 安装 Python 


连接 到 虚拟 机 pyDebian 上 。 连 接 工 具 当然 是 Putty f (ssh 远程 连接 工具 有 很 多 ， 这 里 
只 是 选 了 个 顺手 的 ， 使 用 其 他 的 工具 连接 并 不 影响 结果 ) 。 下 面 ， 先 用 Putty 连接 这 个 Linux 
机 器 。 


COD 双击 Putty 图 标 ， 打 开 Putty.exe， 填 入 IP 地 址 和 端口 信息 ， 如 图 1-13 所 示 。 


"Basic options for your PuTTY session 
Specfy the destination you want to connect to 
Host. Name (rP addes) Po o 
192 168.1.80 22 


O 〇 Raw Im ORogn (9SSH O Serial 
Load. save or delete a stored session 


Cose window on ext 
ONways ONever @Onlyon clean ext 


About Help. Cancel. 
图 1-13 Putty 连接 设置 


(2) 单 击 Open 按钮 ， 第 一 次 使 用 Putty 登录 Linux 会 有 一 个 安全 警告 提示 ， 如 图 1-14 


The server's host key is not cached in the registry. You 
have no guarantee that the server is the computer you 
think it is. 

The server's rsa2 key fingerprint is: 

ssh-rsa 2048 18:fb:726:dc:56:29:4e:46:1c:7b:af:d4:85:29:43 
If you trust this host, hit Yes to add the key to 

PuTTY's cache and carry on connecting. 

If you want to carry on connecting just once, without 
adding the key to the cache, hit No. 


If you do not trust this host, hit Cancel to abandon the 
connection. 


图 1-14 Putty 安全 警告 


(3) 单 击 “ 是 (Y)” 按 钮 ， 进 入 Linux 的 登录 界面 (用 户 名 和 密码 就 使 用 默认 的 
king:qwel23) ， 如 图 1-15 所 示 。 


[The programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
[permitted by applicable 
Last login: Wed Oct 11 
king@debians:~$ [] 


aw. 
5:07 2017 from 192.168.1.99 


图 1-15 登录 Linux 
(4) 输入 用 户 名 和 用 户 密码 后 〈 用 户 密码 不 回 显 ) ， 登 录 到 Linux. 
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Debian Linux 默认 安装 了 Python 2 和 Python 3〈 几 乎 所 有 的 Linux 发 行 版 本 都 默认 安装 
了 Python) 。Python 命令 默认 指向 Python 2.7， 验 证 一 下 Python 的 路 径 ， 执 行 命令 : 
whereis python 


ls -1 /usr/bin/python 
ls -1 /usr/bin/python3 


执行 的 结果 如 图 1-16 所 示 。 
aff king@debians - oa 


login as: king 
king8192.168.1.80's password: 


[The programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
Ipermitted by applicable law. 

Last login: Wed Oct 11 22:45:07 2017 from 192.168.1.99 
king@debian$:~S[whereis python 
Ipython: /usr/bin/python3.4 /usr/bin/python /usr/bin/python2.7 /usr/bin/python3.4 
lm /usr/lib/python3.4 /usr/lib/python2.7 /usr/lib/python2.6 /etc/python3.4 /etc/p 
ython /etc/python2.7 /usr/local/lib/python3.4 /usr/local/lib/python2.7 /usr/incl 
lude/python2.7 /usr/share/python /usr/share/man/manl/python.l.gz 
king@debian8:~$[1s -1 /usr/bin/python 
rwxrwxrwx 1 root root 9 $A 12 22:17 /usr/bin/py 
king@debians:~$ [Is -1 /usr/bin/python3 
rwxrwxrwx 1 root root 9 5 月 12 22:17 /usr/bin/python3 -> python3.4 
king@debians:~$ [] 


on -> python2.7 


图 1-16 查看 Python 路 径 
再 来 看 看 Python 的 版 本 信息 ， 执 行 命令 : 


python2 -V 
python3 -V 


执行 的 结果 如 图 1-17 所 示 。 


king@debian8:~$ python2 -V 
Python 2-7-8 — 


kingGdebian8:-$ pythons -V 


1-17 Python 版 本 信息 


从 图 1-17 中 可 以 看 出 ，Linux 上 安装 的 Python 版 本 与 官网 上 的 最 新 版 本 (Python 3.6.4) 
是 不 同 的 。 这 是 正常 现象 ， 一 般 来 说 Debian Linux 会 使 用 软件 的 最 稳定 版 本 ， 而 Ubuntu 
Linux 会 使 用 软件 的 最 新 版 本 。 
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1.244 Linux 下 安装 配置 pip 


如 同 Windows 中 的 Python 一 样 ，Linux 中 的 Python 同样 需要 一 个 模块 安装 的 管理 工 
具 ， 既 可 以 是 easy_install， 也 可 以 是 pip。 遗 憾 的 是 多 数 Linux 版 本 并 没有 默认 安装 这 个 管理 
工具 (Debian 可 以 使 用 apt-get 安装 大 部 分 的 Python 第 三 方 模块 ， 只 有 极 少数 的 模块 不 能 使 
用 apt-get 安装 ) ， 所 以 得 自己 安装 。 

从 Debian Linux 中 安装 pip， 执 行 命令 : 


su — 
apt-get install python3-pip 


执行 结果 如 图 1-18 所 示 。 
B 


king&debian& 
密码 : 
root@debian8:/home/kingë|apt-get install python3-pip 
正在 读 取 软件 包 列 表 ... 完 
半生 
正在 读 取 状态 信息 . 
TARAS AD SRA RAMERMET. 
libasnl-8-heimdal libgssapi3-heimdal libhcrypto4-heimdal 
libheimbasel-heimdal libheimntlm0-heimdal libhx509-5-heimdal 
libkrb5-26-heimdal librokenl8-heimdal libwind0-heimdal 
tE Hi ‘apt-get autoremove' 来 卸载 它 (它们 )。 
将 会 安装 下 列 额外 的 软件 包 : 
build-essential dpkg-dev g++ g++-4.9 libalgorithm-diff-perl 
libalgorithm-diff-xs-perl libalgorithm-merge-perl libdpkg-perl libexpatl-dev 
libfile-fcntllock-perl libpython3-dev libpython3.4-dev libstdc**-4.9-dev 
python3-colorama python3-dev python3-distlib python3-html5lib 
python3-requests python3-setuptools python3-urllib3 python3-wheel 
python3.4-dev 
建议 安装 的 软件 包 : 
debian-keyring g**-multilib g++-4.9-multilib gcc-4.9-doc libstdc++6-4.9-dbg 
libstdc**-4.9-doc python3-genshi python3-lxml python3-ndg-httpsclient 
python3-openssl python3-pyasnl 
下 列 【 新 】 软 件 包 将 被 安装 : 
build-essential dpkg-dev g++ g++-4.9 libalgorithm-diff-perl 
libalgorithm-diff-xs-perl libalgorithm-merge-perl libdpkg-perl libexpati-dev 
libfile-fcntllock-perl libpython3-dev libpython3.4-dev libstdc++-4.9-dev 
python3-colorama python3-dev python3-distlib python3-html5lib python3-pip 
python3-requests python3-setuptools python3-urllib3 python3-wheel 
python3.4-dev 
级 了 0 个 软件 包 ， 新 安装 了 23 KAE, RHR 0 个 软件 包 ， 有 3 个 软件 包 未 被 升 


6.1 MB 的 软件 包 。 
消耗 掉 110 MB 的 额外 空间 。 
执行 吗 ? iya) [] v 


$ su ~ 


图 1-18 安装 pip 


输入 su -命令 后 再 输入 系统 root 用 户 的 登录 密码 。 该 命令 的 作用 是 使 用 root 用 户 登录 系 
统 ， 并 使 用 root 用 户 的 环境 变量 。apt-get install Python 3-pip 的 作用 是 使 用 apt-get 命令 安装 
Python 3-pip 这 个 工具 包 。 最 后 输入 y 确认 执行 命令 ， 开 始 安装 python-pip. 


Linux 下 安装 软件 都 必须 有 root 权限 ， 可 以 直接 转换 成 root 用 户 安装 ， 也 可 以 在 sudoers 
| 里 添加 特权 用 户 和 权限 。 
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Python ZR REB E 2 版 


安装 Python 3-pip Ja, E 1H root 用 户 环境 ， 查 看 pip3 版 本 ， 如 图 1-19 所 示 。 


a king@debiana: ~ 一 口 


=ootedebian8:/home/king# exit ^ 
exit 

Eten pip3 -V 

ip 1.5.6 from /usr/lib/python3/dist-packages (python 3.4) 
king@debian8:~$ pip3 -h 


Usage: 
pip «command» [options] 


Commands: 
install Install packages. 
uninstall Uninstall packages. 
freeze Output installed packages in requirements format. 
list List installed packages. 
show Show information about installed packages. 
search Search PyPI for packages. 
wheel Build wheels from your requirements. 
zip DEPRECATED. Zip individual packages. 
unzip DEPRECATED. Unzip individual packages. 
bundle DEPRECATED. Create pybundles. 
help Show help for commands. 


General Options: 
-h, --help Show help. v 


图 1-19 验证 pip 


最 后 还 要 将 pip3 的 更 新 源 改 成 国内 源 。 根 据 pip 的 指南 ， 在 Linux 下 pip 的 配置 文件 是 
$HOME/.pip/pip.conf， 执 行 命令 : 


pwd 

mkdir .pip 

cd .pip 

cat > pip.conf << EOF 

[global] 

index-url = https://pypi.mirrors.ustc.edu.cn/simple 
#index-url = http://pypi.hustunique.com/simple 
#index-url = http://pypi.douban.com/simple 

EOF 

cat pip.conf 

exit 


执行 结果 如 图 1-20 所 示 。 
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2 


king&debians 
密码 : 


[rootGdebians:-£ cd 


mkdir .pip 
cd .pip 
:Pip# cat > pip.conf << EOF 


Troot@debians: 
> [global] 
> index-url = https://pypi.mirrors.ustc.edu.cn/simple 
p $index-url = https://pypi.hustunique.com/simple 
> findex-url = https://pypi.douban.com/simple 
> EOF 
root@debian8:~/.pip$ cat pip.conf 
[global] 
index-url = https://pypi.mirrors.ustc.edu.cn/simple 
#index-url = https://pypi.hustunique.com/simple 
#index-url = https://pypi.douban.com/simple 

-pipt exit 


1-20 ”修改 pip.conf 


一 般 Windows 中 的 配置 文件 后 级 名 为 ini，Linux 中 相应 文件 的 后 组 名 为 conf。 
一 般 用 户 和 root 用 户 都 可 以 使 用 pip 安装 模块 ， 这 里 只 修改 了 root 用 户 目录 下 的 配置 文 
件 ， 也 就 是 说 只 有 root 用 户 在 使 用 pip 命令 时 才 会 使 用 国内 的 pip 源 。 而 一 般 用 户 并 没 
有 修改 pip 的 配置 文件 ， 使 用 的 还 是 pip 默认 源 。 


验证 一 下 修改 源 地 址 是 否 成 功 ， 执 行 命令 : 


su - 
python3 -m pip install --upgrade pip 


exit 
结果 如 图 1-21 所 示 。 


king&debianB:-$ su - 
密码 : 
root@debian8:~# python3 -m pip install --upgrade 
Downloading/unpacking pip from [https://mirrors.ustc cn]pypi/web/packages/b6/ 
ac/7015eb97dc749283ffdecic3aBBddb8ae03b8fad0f0e611408f196358da3/pip-9.0.1-py2.py. 
3-none-any .whlimd5-297dbdl6ef53bcef0447d245815f5144 

Downloading pip-9.0.1-py2.py3-none-any.whl (1.3MB): 1.3MB downloaded 
Installing collected packages: pip 


Found existing installation: pip 1.5.6 
Not uninstalling pip at /usr/lib/python3/dist-packages, owned by OS 
Successfully installed pip 
Cleaning up... 
root@debian8:~# ， 


root@debian8:~# exit 
注销 
kingédebians:-S [] 


1-21 更 新 pip 源 
从 图 1-21 可 以 看 出 pip 源 已 经 开始 起 作用 了 。 下 面 来 测试 一 下 pip， 如 图 1-22 所 示 。 
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root 安装 的 模块 一 般 用 户 都 可 以 使 用 。 


1.2.5 


2 


TIS pip = 


ip 9.0.1 from /usr/local/lib/python3.4/dist-packages 
ing@debian8:~$ pip -H 


perm 


(python 3.4) 


Usage: 
pip <command> [options] 


rom /usr/local/lib/python3.4/dist-packages (python 3.4) 


kingédebian8:-$ pip -h 


Usage: 
pip <command> [options] 


download 
uninstall 
freeze 
list 
show 
check 


永远 的 hello world 
似乎 所 有 的 编程 语言 


Install packages. 


nstall packages. 
Output installed packages in requirements format. 


Lis| talled packages. 


Show information about installed packages. 


Verify installed packages have compatible dependen v 


1-22 Wik pip 


到 此 pip 已 完全 配置 完毕 。 和 Windows 下 的 pip Ale], Linux 下 的 pip 可 以 使 用 root 安装 
模块 ， 也 可 以 使 用 一 般 用 户 来 安装 模块 。 推 荐 使 用 
root 用 户 来 安装 ， 因 为 有 些 模块 安装 需要 root 特权 ， 


一 个 程序 都 是 hello 


world. Python 也 不 能 免 俗 ， 下 面 分 别 从 Windows 和 
Linux 下 创建 hello.py。 


1 . Windows 下 创建 hello.py 


CD 单 击 桌面 左下 角 的 “开始 ”| “所 有 程序 ” 
菜单 ， 单 击 Python 3.6 菜单 ， 单 击 IDLE (Python GUD 
菜单 ， 如 图 1-23 所 示 。 


(2) 此 时 打开 的 是 Python Shell 交互 界面 ， 
击 File | New File 菜单 ， 如 
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图 1-24 所 示 。 


再 单 


@ Internet Explorer (64 (2) 
@ Internet Explorer 
© Windows DVD Maker 
© Windows Media Center 
IB Windows Media Player 
E Windows Update 
E3 Windows (REOR 
“A XPS Viewer 
e rues 
gh Imh 
EE Python 3.6 
À IDLE (Python 3.6 64-bit) 
EP Python 3.6 (64-bit) 
[9 Python 3.6 Manuals (64-bit) 
A Python 3.6 Module Docs (64-bit) 
ml 
s 
m 


计算 机 


控制 面板 


设备 和 打印 中 


| RES 


帮助 和 支持 


图 1-23 打开 IDLE 


|[File] Edit Shell Debug Options Window Help 


Yew File Culn Dec 19 2017, 06:54:40) [MSC v.1900 64 bit (AND64)] ~ 
Open... Ctrl+0 "license()" for more information. 

Open Module... Alti 

Recent Files » 

Module Browser AlttC 

Path Browser 

Save Ctrl+S 

Save As. CtrltShi fts 


Save Copy ks. . ， 姑 t+Shi ft+S 


Print Window Ctrl+P 


Close ALA 
Exit Ctrlg 


1-24 打开 IDE 
(3) 用 IDLE 的 IDE 打开 一 个 新 文件 ， 在 此 新 文件 中 编辑 hello.py， 如 图 1-25 所 示 。 


File Edit Shell Debug Options Window Help 


Python 3.6.4 (v3.6.4:d48eceb, Dec 19 2017, 06:54:40) [MSC v. 1900 64 bit (AMD64)] 
on win32 

Type “copyright”, “credits” or "license()" for more information. 
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LÈ "Lpy - C/Users/king/Desktop/1.py (3.6.4)" 
File Edit Format Run Options Window Help 


#!/usr/bin/env python3 
#-*-coding: utf-8 -+- 
-.author | = "hstking hst_king@hotmail. con’ 


if __name. min’: 
print (hello world’) 
print ( 你 好 ,Pythonl ) 


1-25 编辑 hello.py 
(4) 单 击 该 IDE 的 File | Save As .… 菜 单 ， 将 已 编辑 好 的 代码 保存 ， 如 图 1-26 所 示 。 


File Edit Shell Debug Options Window Help 


Python 3.6.4 (v3.6.4:dd8eceb, Dec 19 2017, 06:54:40) (MSC v.1900 64 bit (AMD64)] + 
on win32 

Type “copyright, “credits” or “license()“ for more information. 

222. 


LA “Lpy - C/Users/king/Desktop/1.py (3.6.4)* 

(File] Edit Format Run Options Window Help 
New File Ctrl mm E 
Open. Ctrl40 hotmail. con’ 
Open Module... ALtHI 
Recent Files 
Module Browser ALUC 


Ctrlts 
CtrlsShi ft+S 
Save Copy As... ALt+Shift+S 


Print Window Ctrl+P 


AHA 
Ctrltg 


1-26 保存 代码 
(5) 选择 保存 文件 位 置 。 这 里 选择 的 是 保存 到 桌面 ， 文 件 名 为 hellopy， 如 图 1-27 所 示 。 
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File. Edit Shell Debug Options Window Help 


Python 3.6.4 (v3.6.4:ddBeceb, Dec 19 2017, 06:54:40) DESC v. 1900 64 bit (4ND64)] ~ 
on win32 [3 


— dits" or "linensa(l" for aora inforaat | 
LA "Ley - C/Users/king/Desktop/Lpy (3.64)" 

| Fle Edit Format Rum Options Window Help 

#1/ust/bir/ env python3 


stking hst kingéhotmail. con’ 


if name ， 一 main " 
orld’) 
hon!” 


zeam heo] | 


保存 类 型 (T): [Python files (-py;"pyw) 


^ Pe 


图 1-27 选择 文件 保存 位 置 


(6) 单 击 “ 保 存 ” 按 钮 ， 将 hello.py 保存 到 桌面 。 按 住 Shift 键 ， 同 时 右 击 桌面 空白 
处 ， 如 图 1-28 所 示 。 


File Edit Shell Debug Options Window Help 
Python 3.6.4 (v3.6. 4:ddGeceb, Dec 19 2017, 06:64:40) [WSC v. 1900 64 bit (AND6A)] 上 
on win’ 
"onmrrisht^. "cradita nr "licensa(l" far mare informat: 
|. hello.py - C/Users/king/Desktop/hello.py (3.6.4) 
File Edit Format Run Options Window Help 
t 1/ust/bin/env python 了 
d-s-coding: utf-B -«- 
ing het king&hotnail. con 


“print The: 
print ( 你 好 ， 


aay) 

排序 方式 (0) 
FICE) 

Sep) 
KIERES) 
mos eU) 


-28 打开 Windows 命令 行 工具 


(7) 单 击 “在 此 处 打开 命令 窗口 ”， 打 开 了 命令 行 工具 ， 执 行 命令 : 
python hello.py 
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执行 结果 如 图 1-29 所 示 。 


file Edit Shell Debug Options Window Help 
Python 3.6.4 (v3.6.4:dd8eceb, Dec 19 2017, 06:54:40) 


File Edit Format Run Options Window Help 


#!/usr/bin/env python3 
codii itf-8 一 和 


main": 
world 
ython!') 


Bii C:\Windows\system32\cmd.exe 


:NisersNkingNDesktopppython hello.py | 
felts world 
你 好 .Pythong 


C: Nisers NkingNDesktop?,, 


1-29 执行 hellopy 


E | 程序 的 第 一 行 指定 Python 解释 器 的 位 置 。 在 Windows 中 这 一 行 并 没有 什么 意义 ， 留 下 
| 这 一 行 是 为 了 兼容 Linux。 第 二 行 是 指定 Python 程序 编码 ， 在 Python 3 中 默认 的 字符 纺 
码 就 是 utf-8， 因 此 这 一 行 也 没 多 大 意义 ， 是 为 了 兼容 Python 2 而 保留 的 。 


至 此 ，Windows 下 的 hello.py 执行 完毕 。 


2 . Linux 下 创建 hello.py 


(1) 使 用 Putty 连接 到 Linux， 执 行 命令 : 
mkdir -pv code/python 
ed !$ 
cat » hello.py «« EOF 
#!/usr/bin/env python3 
#-*- coding: utf-8 -*- 
. authon  - 'hstking hst_king@hotmail.com' 
EU nome == 1 main ts 
print ("hello world!") 
print("4Kif, Python! ") 
EOF 


执行 结果 如 图 1-30 所 示 。 
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ing@debian8:~$ mkdir -pv code/crawler 
kdir: 已 创建 目录 "code" 
kdir: 已 创建 目录 "code/crawler" 
ing@debian8:~$ cd !$ 
d code/crawler 
ing@debian8:~/code/crawler$ cat > hello.py << EOF 
#!/usr/bin/env python3 
#-*- coding: utf-8 -*- 
__authon__ = 'hstking hst kingéhotmail.com" 
if name  -- ' ma ' 
print('Hello wor 


s print ("你 好 ，Python!') 


EOF 
ing@debian8:~/code/crawlers [] 


FA 1-30 编辑 hellopy 


(2) 然后 在 Putty 中 执行 命令 : 
python hello.py 


执行 结果 如 图 1-31 所 示 。 


EP king@debian8: ~/code/crawler 
king@debian8:~$ mkdir -pv code/crawler 
mkdir: 已 创建 目录 "code/crawler" 
king@debian8:~$ cd !$ 
cd code/crawler 
king@debian8:~/code/crawler$ cat > hello.py << EOF 
> #!/usr/bin/env Python3 u i 
inux 上 默认 安装 了 Python2 和 
> _authon  - 'hstking hst_king@hotmail.com’ p 
> 一 一 人 Python3， 所 以 这 里 必须 指明 解 
> if name == ' main ': 释 器 的 版 本 --Python3。 
> print ("Hello world!") 


> print ("你 好 ，  Python!") 
> EOF 


king8debian8:-/code/crawler$| python3 hello.py 
Hello world! 

你 好 ， Python! 
king@debian8:~/code/crawlers Bj 


图 1-31 执行 hellopy 


这 是 没有 使 用 文本 编辑 工具 编辑 文档 ， 用 的 是 cat 命令 。 如 果 有 条 件 ， 尽 可 能 地 使 用 文 


i 本 编辑 器 ， 如 vi。 几乎 所 有 的 Linux 版 本 都 默认 安装 了 vi 文本 编辑 器 。 


因为 在 Windows 中 只 安装 了 一 个 Python 3， 而 在 Linux 中 默认 安装 了 Python 2 和 Python ) 
3。 所 以 在 Windows 中 运行 Python 3 的 程序 只 需要 执行 命令 Python. program.py. 就 可 以 
了 。 而 在 Linux 中 运行 Python 3 的 程序 则 需要 指明 解释 器 的 版 本 Python 3， 因 此 命令 应 
该 为 Python 3 program py. 


Linux 下 的 hello.py 执行 完毕 。 在 Python 程序 中 有 中 文字 符 时 需要 注意 ， 这 里 的 例子 能 
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正常 显示 是 因为 当前 系统 默认 支持 utf-8 字符 集 。 如 果 系统 不 支持 utf8， 就 需要 将 中 文字 符 
用 encode 转换 成 系统 可 识别 的 字符 集 。 


Ex g » 
i ow 本 章 小 结 


Python 语言 使 用 范围 很 广 ， 既 能 做 最 简单 的 数学 加 减 运算 ， 也 能 做 高 端的 科学 计算 ;， 既 
可 服务 于 企业 、 政 府 、 学 校 ， 也 能 用 于 个 人 。Python 易学 难 精 ， 不 管 是 初学 者 还 是 “高 端 选 
手 ” 都 值得 一 学 、 一 用 。 尤 其 是 对 网 络 的 大 力 支持 ， 使 得 Python 用 于 网 络 编程 具有 很 大 的 优 
势 ， 这 也 是 为 什么 要 用 Python 写 网 络 爬 虫 的 原因 之 一 。 
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本 章 简略 讲解 Python 的 基础 ， 介 绍 Python 与 其 他 编程 语言 的 不 同 之 处 。 在 此 主要 是 与 
C 语言 相 比较 。 如 果 有 C 语言 或 者 Java 语言 的 基础 ， 理 解 本 章 内 容 会 更 加 容易 ， 如 果 没 有 基 
础 也 没关系 ，Python 语言 非常 简单 ， 多 看 两 遍 也 就 会 了 。 


2 .1 python 变量 类 型 


Python 的 标准 数据 类 型 只 有 5 个 ， 分 别 是 数字 、 字 符 串 、 列 表 、 元 祖 、 字 典 。 看 起 来 比 
c 语言 的 数据 类 型 少 了 很 多 ， 但 该 有 的 功能 一 个 不 少 。 即 使 C 语言 的 代表 作 链 表 和 二 又 树 ， 
Python 同样 能 应 付 自如 。 


2.1.1 数字 
Python 支持 以 下 3 种 不 同 的 数值 类 型 。 


1. int 类 型 


有 符号 整数 ， 就 是 C 语言 中 所 指 的 整 型 ， 也 就 是 数学 中 的 整数 。Python 3 的 int 与 
Python 2 的 int 略 有 不 同 。Python 2 中 有 个 sys.maxint 限制 了 int 类 型 的 最 大 值 ， 超 过 这 个 数 
值 的 将 自动 转换 为 Python 2 的 long 类 型 。Python 3 中 没有 sys.maxint， 但 有 一 个 相似 的 
sys.maxsize， 这 个 数 并 没有 限制 Python 3 中 int 类 型 数 的 极限 。 理 论 上 来 说 Python 3 的 int 类 
型 是 无 限 大 的 。 查 看 当前 系统 下 的 sys.maxsize， 使 用 Putty 登录 Linux， 执 行 命令 : 

python3 

import sys 

print (sys.maxsize) 


执行 结果 ， 如 图 2-1 所 示 。 


# Python 基础 


login as: king 
kingé192.168.1.80's password: 


口 


The programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


PEEEEEEEEEEEEEEEEEEEE EE EE EE FF FF nn 
#linux user:password 

#king:qwe123 

#root:debian8 
POPPPPPORERRR EROS OREO ORER EERE EEOES 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
permitted by applicable law. 

Last login: Thu Jan 18 18:03:47 2018 from 192.168.1.99 
kingédebian8:-$ python3 

Python 3.4.2 (default, Oct 8 2014, 10:45:20 

[GCC 4.9.1] on linux 


ype "h ， "credits" or "license" for more information. 


> import sys 
> print (sys.maxsize) 
23372036854775807 


2-1 Rint 最 大 值 


与 C 语言 不 同 的 是 ，Python 给 变量 赋值 时 不 需要 预先 声明 变量 类 型 。 八 进 制 数字 、 十 六 
进 制 数 字 都 是 属于 int (Long) 类 型 的 。 

长 整数 ， 超 过 sys.maxsize 的 整数 还 是 int 类 型 。 想 赋值 多 大 都 行 ， 只 要 内 存 足 够 大 就 可 
以 。 在 Windows 中 打开 cmd.exe， 执 行 命令 : 

Python 

import sys 

sys.maxsize 

type (999999999999999999999999999999) 


执行 结果 如 图 2-2 所 示 。 


icrosoft Vindows [版 本 10.0. i 
c) 2017 Microsoft Corporation。 保 留 所 有 权利 。 


:\Users\king>python 
ython 3.6.3 |Anaconda, Inc.| (default, Oct 15 2017, 03:27:45) [MSC v. 1900 64 bi 


>> sys. maxsize 

223372036854775807 

>> type (999999999999999999999999999999) 
class ’int’> 


2-2 Python long int 
2. float 类 型 


浮 点 型 实数 ， 基 本 和 C 语言 的 浮 点 型 一 致 ， 也 就 是 数学 中 带 小 数 点 的 数 ， 不 包括 无 限 小 
数 ， 不 区 分 精度 。 只 要 是 带 小 数 点 的 数 都 可 以 看 作 浮 点 型 数据 。 
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3. complex 类 型 


复数 ， 在 C 语言 中 是 需要 自 定义 的 一 个 数据 类 型 。 在 Python 中 把 它 单独 列 出 来 作为 基 


本 数据 类 型 。 复 数 包含 一 个 有 序 对 ， 表 示 为 a+ bj， 其 中 ，a 是 实 部 ，b 是 复数 的 虚 部 。 


【示例 2-1】 用 一 个 简单 的 程序 showNumType.py 来 显示 Python 的 数字 类 型 。 使 用 Putty 


连接 到 Linux， 执 行 命令 : 
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mkdir -pv code/crawler 
cd !$ 
vi showNumType.py 


showNumType.py 代码 如 下 : 


1 #!/usr/bin/env Python3 
2 pS Coding: GEE=S =*=- 


3 author  - 'hstking hst_king@hotmail.com' 
4 
5 class ShowNumType (object) : 
6 def _ init (self): 
7 self.showInt() 
8 self.showLong() 
9 self.showFloat () 
10 self .showComplex () 
11 
12 def showInt (self): 
13 print ("HHEHHHHHHECORTEEEHRHH HH GGG GE) 
14 print (" 十 进 制 的 整 型 ") 
15 print ("$-20d,$-20d,$-20d" %(-10000, 0,10000) ) 
16 print (" 二 进 制 的 整 型 ") 
abi print ("$-20s,%-20s,%-20s" $(bin(-10000),bin(0),bin(10000))) 
18 print ("八进制 的 整 型 ") 
19 print("$-20s,$-20s,$-20s" %(oct(-10000),oct(0),oct(10000))) 
20 print ("十 六 进 制 的 整 型 ") 
21 print ("%-20s,%-20s,%-20s" $(hex(-10000),hex(0),hex(10000))) 
22 
23 def showLong (self): 
24 print ("HHEN KEA HHHH HHHH") 
gs print (" 十 进 制 的 整 型 ") 
26 print("$-20Id,$-20Id, $-20Ld" % (-10000000000000000000, 0, 10000000000000000000) ) 
27 print (" 八 进 制 的 整 型 ") 
28 print ("%-20s,%-20s,%-20s" % (oct (-10000000000000000000) ,oct (0), 
oct (10000000000000000000) ) ) 
29 print (" 十 六 进 制 的 整 型 ") 
30 print ("%-20s,%-20s,%-20s" $(hex(-10000000000000000000),hex(0), 


hex (10000000000000000000) )) 


31 

32 def showFloat (self): 

ES print ("HHHHHHHHHHUCRTÉ AAL HHHH") 

34 print ("%-20.10f,%-20.10f£,%-20.10£" $(-100.001,0,100.001)) 
35 

36 def showComplex (self): 

37 print (HHHHHHHHHESCR BOM EHH HEHEHE EEE") 

38 print ("变量 赋值 复数 var = 3 + 4j") 

39 var = 3 + 4j 

40 print ("var 的 实 部 是 : Sd\tvar 的 虚 部 是 : $d" $(var.real,var.imag)) 
41 

42 

43. 16 nome == "main [IH 

44 showNum = ShowNumType () 


在 Putty 下 执行 命令 : 


python3 showNumType.py 


得 到 的 结果 如 图 2-3 所 示 。 


P: 

king@debian8:~/code/crawler$ python shouNumType.py a 
BH M NE n 

十 进 制 的 整 型 

|-10000 0 10000 

二 进 制 的 整 型 

-0b10011100010000  ,0b0 ,0b10011100010000 

八进制 的 整 型 

|-023420 ,0 4023420 

十 六 进 制 的 整 型 

-ox2710 70 
# 显 示 长 整 型 4 
由 整 型 
-10000000000000000000,0 ,10000000000000000000 

八进制 的 整 型 

-01053071060221172000000L,0 ,01053071060221172000000L 
十 六 进 制 的 整 型 

|-0x8ac7230489e80000L, 0x0 ,0x8ac7230489e80000L 
LL ERU E ELITS 

|-100.0010000000 ,0.0000000000 ,100.0010000000 
LL x £ £ I n nnn 

变量 赋值 复数 var = 3 + 45 

var 的 实 部 是 : 3 vari MB: 4 

king@debian8:~/code/crawler$ 

king@debian8:~/code/crawiler$ [] v 


,0x2710 


"unn 


2-3 运行 showNumType.py 


showNumType.py 是 Linux 下 以 C++ 风格 编写 的 示范 程序 ， 展 示 如 何 标准 输出 各 种 基本 


数字 类 型 。 


242 FHE 
在 Python 中 ， 字 符 串 是 被 定义 为 在 引号 〈 或 双 引 号 ) 之 间 的 一 组 连续 的 字符 。 这 个 字符 
可 以 是 键盘 上 的 所 有 可 见 字符 ， 也 可 以 是 不 可 见 的 “ 回 车 符 ”“ 制 表 符 ”等 。 
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字符 串 的 操作 方法 很 多 ， 这 里 只 选 出 最 典型 的 几 种 。 


@ 


(2 


— 


(3 


— 


字符 串 大 小 写 转换 


Slower): 字母 大 写 转换 成 小 写 。 

S.upper() : 字母 小 写 转换 成 大 写 。 

S.swapcase(): 字母 大 写 转 换 或 小 写 ， 小 写 转换 成 大 写 。 

Stile): 将 首 字 母 大 写 。 

字符 串 搜索 、 蔡 换 

S.find(substr, [start, [end]]): 返回 S 中 出 现 substr 的 第 一 个 字母 的 标号 ， 如 果 S 中 没 
有 substr 就 返回 -1，start 和 end 的 作用 就 相当 于 在 S[start:end] 中 搜索 。 

S.count(substr, [start, [end]]) : 计算 substr 在 S 中 出 现 的 次 数 。 

S.replace(oldstr, newstr, [count]): 把 S 中 的 oldstr 替换 为 newstr，count 为 替换 次 
数 。 

S.strip([chars]): 把 S 左右 两 端 chars 中 有 的 字符 全 部 去 掉 ， 一 般 用 于 去 除 空格 。 
S.lstrip([chars]): 把 S 左 端 chars 中 所 有 的 字符 全 部 去 掉 。 

S.rstrip([chars]): 把 S 右 端 chars 中 所 有 的 字符 全 部 去 掉 。 


字符 串 分 割 、 组 合 

S.split([sep, [maxsplit]]): 以 sep 为 分 隔 符 ， 把 S 分 成 一 个 list, maxsplit 表示 分 割 的 
次 数 ， 默 认 的 分 割 符 为 空白 字符 。 

S.join(seq): 48 seq 代表 的 序列 一 -字符 串 序列 ， 用 S 连接 起 来 。 

字符 串 编码 、 解 码 


S.decode([encoding]): 将 以 encoding 编码 的 S 解码 成 unicode 编码 。 
S.encode([encoding]): 将 以 unicode 编码 的 S 编码 成 encoding, encoding 可 以 是 
gb2312、gbk、big5…… 

字符 串 测 试 

S.isalpha): S 是 否 全 是 字母 ， 至 少 有 一 个 字符 。 

S.isdigit): S 是 否 全 是 数字 ， 至 少 有 一 个 字符 。 

S.isspace(): S 是 否 全 是 空白 字符 ， 至 少 有 一 个 字符 。 

S.islower(): S 中 的 字母 是 否 全 是 小 写 。 

S.isupper(): S 中 的 字母 是 否 全 是 大 写 。 

S.istitle): S 是 否 是 首 字母 大 写 的 。 


【示例 2-2】 编 写 一 个 showStrOperation.py 来 实验 一 下 。 这 次 在 Windows 下 以 IDLE 为 
IDE 来 编写 程序 。showStrOperation.py 代码 如 下 : 


#!/usr/bin/env python3 
#-*- coding: utf-8 -*- 
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' "因为 windows 默认 的 中 文字 符 编码 是 SGBK， 所 以 …" 
author = 'hstking hst king@hotmail.com' 


def strCase(): 
"字符 串 大 小 写 转换 " 
print (" 演 示 字 符 串 大 小 写 转换 ") 
print (" 演 示 字 符 串 Ss 赋值 为 : ' ThIs is a PYTHON '") 
S = ' ThIs is a PYTHON ' 
print (" 大 写 转 换 成 小 写 ，\tS.lower() \t= $s" $(S.lower())) 
print ("小 写 转换 成 大 写 : \tS.upper() \t= $s" %(S.upper())) 
print ("大 小 写 转换 : \t\tS.swapcase() \t= %s" %(S.swapcase())) 
print (" 首 字 母 大 写 : \t\tS.title() \t= $s" $(S.title())) 
print ('\n') 


def strFind(): 
"字符 串 搜索 、 蔡 换 " 
print (" 演 示 字 符 串 搜索 、 蔡 换 等 ") 
print (" 演 示 字 符 串 s 赋值 为 : ' ThIs is a PYTHON '") 
S = ' ThIs is a PYTHON ' 
print ("S#PRR: \t\tS.find('is') \t= %s" $(S.find('is'))) 
print (" 字 符 串 统计 : \t\tS.count('s') \t= $s" %(S.count('s'))) 
print (" 字 符 串 替换 ，\t\tS.replace('Is'v'is') = $s" %(S.replace('Is','is'))) 
print ("去 左右 空格 : \t\tS .strip () \t=#%s#" $(S.strip())) 
print ("去 左边 空格 : \t\tS.lstrip() \t=#%s#" %(S.1lstrip())) 
print ("去 右边 空格 : \t\tS.rstrip() \t=#%s#" %(S.rstrip())) 
print ('\n') 


def strSplit(): 

"字符 串 分 割 、 组 合 " 

print ("演示 字符 串 分 割 、 组 合 ") 

print ("RTH s 赋值 为 : ' ThIs is a PYTHON '") 

S = ' ThIs is a PYTHON ' 

print (" 字 符 串 分 割 : \t\tS.split() \t= $s" $(S.split())) 

print (" 字 符 串 组 合 1: '£'.join(['this','is','a','python']) \t= %s" 
&('$'.join(['this','is','a"','python']1))) 

print ("字符 串 组 合 2: '$'.join(['this','is','a','python']) \t= $s" 
$('$'.join(['this','is','a', 'python']))) 

print ("FHRA 3: ' '.join(['this','is','a','python']) \t= $s" $(' 
"join ("this rio ta", "pyEhon*1))). 

print('\n') 


def strTest(): 
"字符 串 测试 " 
print (" 演 示 字 符 串 测试 ") 
print (" 演 示 字 符 串 s 赋值 为 : 'abcd'") 
S1 = 'abcd' 
print ("测试 S.isalpha() = $s" $(Sl.isalpha())) 
print ("Wik S.isdigit() = $s" $(Sl.isdigit())) 
print ("测试 S.isspace() = $s" $(Sl.isspace())) 
print ("测试 S.islower() = $s" $(Sl.islower())) 
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print ("测试 S.isupper() = $s" %(S1.isupper ( 
print ("Mix S.istitle() = $s" $(Sl.istitle( 


if | name == ' main ': 
strCase() 
strFind() 
strSplit() 


strTest() 


打开 Windows 的 命令 行 工 具 (cmd.exe) ， 执 行 命令 : 


python showStrOperation.py 


得 到 的 结果 如 图 2-4 所 示 。 


File Edit Format Run Options Window Help 


#1/usr/bin/ ony pythons 
coding: utf-8 ~ " 

H SoVindovsl ih 3 ERIS EGEK 所 以 … . 
hor. = "hstking hstkingéhotmail. con’ 


ThIs is a PYTHON '") 


)) 
)) 


Ten 
NK. svapcase ())) 


StitleÜ Me Xs" XG.titleQ)) 
E C:\Windows\system32\cmd.exe 


-stripC) 
Be 
T 


TE 分 合 

| HR E This is a PYTHON " 
nu. S.split© = ['ThIs', 
IB. G^.join CU this," is^, a’ python’ 1) 
组 全 2: "$^ join this’, is’ va -’python’ D 
组 合 3 ^ ’.join¢l’ this’ ,”is’,’a’,’ python’ 1> 


‘is’, 


his is a PYTHONI 
-IstripO THThIs is a PYTHON # 
-PstripC) 7H This is a PYTHONI 


et 4 eid Ed * This is a PYTHON 
tos. 


a’, 'PVTHON' ] 

= thistlistlatipython| 
= this$is$a$python| 
= this is a python| 


图 2-4 运行 showStrOperation.py 


与 showNumType.py 不 同 ，showStrOperation.py 是 在 Windows 下 以 C 语言 的 风格 编写 


的 。 实 际 上 这 两 个 程序 并 没有 什么 区 别 ， 使 用 哪 种 风格 视 个 人 习惯 而 定 。 


字符 串 也 可 以 看 成 一 个 不 可 修改 的 字符 列表 ， 所 以 大 部 分 用 来 操作 列表 的 方法 〈 不 涉及 


L 修改 列表 元 素 的 ) 同样 可 以 用 来 操作 字符 串 。 
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2.1.3 ”列表 

列表 是 Python 最 常用 的 变量 类 型 。 列 表 是 一 个 可 变 序列 ， 序 列 中 的 每 个 元 素 都 分 配 一 个 
数字 ， 即 它 的 位 置 ， 或 者 叫 索引 。 第 一 个 索引 是 0， 第 二 个 索引 是 1， 以 此 类 推 。 列 表 中 的 元 
素 可 以 是 数字 、 字 符 串 、 列 表 、 元 组 、 字 典 ……Python 使 用 中 括号 [ ] 来 解析 列表 ， 将 一 个 
变量 赋值 为 空 列表 ， 很 简单 ， 执 行 命令 var = [] 就 可 以 了 。 

列表 的 基本 操作 很 简单 ， 一 般 是 创建 列表 、 插 入 数据 、 追 加 数据 、 访 问 数据 、 删 除数 
据 。 下 面 实验 一 下 。 

创建 列表 ， 直 接 赋 值 即 可 。 访 问 列表 ， 只 需要 列表 名 和 列表 中 元 素 的 下 标 即 可 。 创 建 一 
个 字符 的 列表 ， 执 行 命令 : 

T= a re] 

L1[0] 

L1[1] 

L1[2] 

L1[4] 

L1[5] 


执行 的 结果 如 图 2-5 所 示 。 
这 king@debian8: ~ = D x 


i root:debian& ^ 
LLEEEE EEE EE EEEE EEEE EE EEE EEEE EEEE E EE Ea a 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
permitted by applicable law. 

Last login: Thu Jan 18 18:06:49 2018 from 192.168.1.99 
king@debian8:~$ python 

Python 2.7.9 (default, Jun 29 2016, 13:08:31) 

[GCC 4.9.2] on linux2 

Type "help", "copyright", "credits" or "license" for more information. 


>>>| Ll = ['a', 'b', 'c', 'd', *e*]] 
>>> LITOT 


vat 
>>> L1[1] 


b 

>>> L1[2] 

ve 

>>> L1[4] 

tet 

>>> L1[5] 

Traceback (most recent call last): 
File "<stdin>", line 1, in «module» 


IndexError: list index out of range 
>> 目 ~ 


2-5 创建 列表 


如 图 2-5 所 示 ， 如 果 访 问 超出 范围 ，Python 3 则 会 抛 出 一 个 异常 mdexError。 如 果 只 是 创 
建 一 个 纯 字 符 的 列表 ， 无 须 逐 个 输入 字符 ， 执 行 命令 L1 = list(abcde) 即 可 。 
插入 、 追 加 、 删 除 列 表 数据 也 很 简单 ， 执 行 命 令 : 


L1.insert (0,0) 
L1.insert (-1,100) 


29 


L1.append('python') 


L1.pop (3) 
L1.pop () 
执行 结果 如 图 2-6 所 示 。 
P - a] 


[0, 'a', "bY, 'c', tat, 'e'] 
>>> Li.insert(-1,100) 

>>> L1 

[0, 'a', 'b', 'c', 'd', 100, 'e'] 
>>> Li.append('python' 
>>> Ll 

[0, 'a', 'b', 'c', 'd', 100, 'e', 'python'] 
>>> L1.pop(3) 


[0, 'a', 'b', 'd', 100, 'e', 'python'] 


图 2-6 插入 、 追 加 、 删 除数 据 


对 列表 最 常用 的 操作 是 列表 分 片 。 分 片 可 以 简单 地 理解 为 将 一 个 列表 分 成 几 块 。 它 的 操 
作 方法 是 list[index1:index2[:step]]。 先 创建 一 个 较 长 的 数字 列表 做 这 个 分 片 示例 ， 执 行 命令 : 

Te =i 

for i in xrange (0,101): 

L2.append (i) 

L2 


这 样 就 创建 了 一 个 包含 0~100 FE 101 个 数字 的 列表 ， 如 图 2-7 所 示 。 
E 


>>> L2 = [] 
>>> for i in xrange(0, 
L2.append(i) 


2-7 创建 数字 列表 


列表 切片 其 实 和 访问 列表 元 素 很 相似 。 例 如 ， 要 访问 列表 L2 的 第 10 个 元 素 ， 直 接 用 
L2[10] 就 可 以 了 。 如 果 要 访问 列表 L2 的 第 10 到 20 个 元 素 呢 ? 很 简单 ，L2[10:21] 就 可 以 了 。 
至 于 list[indexl:index2[:step]] 中 的 step 是 步 长 。 实 验 一 下 就 清楚 了 ， 执 行 命令 : 

L2[0:21] 
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L2[21:41] 

L2[81:101] 
L2[0:21:1] 
L2[0:21:2] 
L2[0:21:3] 
L2[0:21:4] 
L2[0:21:5] 


执行 结果 如 图 2-8 所 示 。 


图 2-8 列表 分 片 
【示例 2-3】 写 个 简单 的 程序 showListpy 验证 一 下 。 打 开 Putty 连接 到 Linux， 执 行 命 


$: 


cd code/crawler 
vi showList.py 


showList.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 
2 $-*- coding: utf-8 -*- 


3 author  - 'hstking hst_king@hotmail.com' 
4 

5 class ShowList (object): 

6 def init (self): 

F self.L1 = [] 

8 self.L2 - [] 

9 

10 self.createList() # 创 建 列表 
11 self.insertData() # 插 入 数据 
12 self.appendData() ”# 追 加 数据 
13 self.deleteData() 7p Xu 
14 self.subList() # 列 表 分 片 
15 
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16 
17 
18 
19 
20 
2 
22 
23 
24 
25 
26 
2m 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
5m 
58 


def createList (self): 
print ("创建 列表 : ") 
print("L1 = list('abcdefg')") 
self.L1 = list('abcdefg') 
print ("L2 = []") 
print ("for i in xrange(0,10):") 
print ("\tL2.append(i)") 
for i in range(0,10): 

self.L2.append(i) 

print("Ll = "), 
print(self.L1) 
princ("*n2 = =); 
print (self.L2) 
print('Wn') 


def insertData (self): 
print ("插入 数据 ") 
print ("L1 列表 中 第 3 个 位 置 插入 数字 100， 执 行 命令 : L1.insert (3,100)") 
self.L1l.insert (3,100) 
print("L1 = "), 
print (self.L1) 
print ("L2 列表 中 第 10 个 位 置 插入 字符 串 'Python '， 执 行 命令 : L2.insert (10, 'python')") 
self.L2.insert(10,'python') 
print("L2 = "), 
print (self.L2) 
print('Mn') 


def appendData (self): 
print (" 追 加 数据 ") 
print ("L1 列表 尾 追加 一 个 列表 [1, 2, 3] ， 执 行 命令 L1.append([1,2,3]") 
self.L1.append([1,2,3]) 
print ("Ll = "), 
print (self.L1) 
print ("L2 Xi —4 70H (a! , 'b', 'c'), 执行 命令 L2.append(('a','b','c')") 
self.L2.append(('a','b','c')) 
print("L2 - "), 
print (self.L2) 
print ('\n') 


def deleteData (self): 
print ("删除 数据 ") 
print ("删除 51 的 最 后 一 个 元 素 ， 执 行 命令 L1.pop () ") 
self.L1.pop() 


59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
TA 
12 
73 
74 
15 


print ("L1 ="), 
print (self.L1) 

print (" 删 除 L1 的 第 1 个 元 素 ， 执 行 命令 L1.Pop (0) ") 
self.L1.pop(0) 

print("L1 = "), 

print (self.L1) 

print (" 删 除 L2 的 第 4 个 元 素 ， 执 行 命令 L2.Pop (3) ") 
self.L2.pop(3) 

print("L2 ="), 

print (self.L2) 

print ('\n') 


def subList (self): 
print ("列表 分 片 ") 
print (" 取 列表 L1 的 第 3 到 最 后 一 个 元 素 组 成 的 新 列表 ， 执 行 命令 L1[2:]") 
print (self.L1[2:]) 
print (" 取 列表 工 2 的 第 2 个 到 倒数 第 2 个 元 素 组 成 的 新 列表 ， 步 长 为 2， 执行 命令 


下 2 
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print (self.L2[1:-1:2]) 
print ("\n') 


if ^ name  -- ' main ': 
print (" 演 示 列 表 操 作 : Nn") 
sl = ShowList() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq 保存 showList.py。showList.py 显示 了 Python 列表 的 


基本 功 角 


b 
iz 


列表 的 创建 、 插 入 、 追 加 、 分 片 等 。 执 行 命令 : 


Python3 showList.py 


得 到 的 结果 如 图 2-9 所 示 。 
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BP king@debian8: ~/code/crawler 
king&debian8:-/code/crawlerS|python3 showList.py 


演示 列表 操作 : 


创建 列表 : 

L1 = list('abcdefg') 

L2 = [] 

for i in xrange(0,10): 
L2.append(i) 

Ll = 

(tat, ‘bt, tet, * 

12 = 

(0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 


插入 数据 

L1 列 表 中 第 3 个 位 置 插入 数字 100， 执 行 命令 ，L1.insert(3,100) 

Ll = 

['a', 'b', 'c', 100, 'd', 'e', '£', 'g'] 

L2 列 表 中 第 10 个 位 置 插入 字符 串 'python'， 执 行 命令 ;， L2.insert (10, 'python') 
L2 = 

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 'python'] 


追加 数据 

L1 列 表 尾 追加 一 个 列表 [1,2,3]， 执 行 命令 Ll1.append([1,2,3] 

Li = 

['a', 'b', 'c', 100, 'd', 'e', '£', 'g', [1, 2, 3]] 

L2 列 表 尾 追加 一 个 元 组 ('a','b','c')， 执 行 命令 L2.append(('a','b','c') 
L2 = 

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, ‘python’, ('a', 'b', ‘c')] 


删除 数据 

删除 Li 的 最 后 一 个 元 素 ， 执 行 命令 L1.pop() 

Ll = 

['a', 'b', 'c', 100, 'd', 'e', '£', 'g'] 

删除 Li 的 第 1 个 元 素 ， 执 行 命令 L1.pop(0) 

Li = 

['b', "ct, 100, 'd', 'e', "f*, 'g'] 

删除 L2 的 第 4 个 元 素 ， 执 行 命令 L2.Pop(3) 

L2 = 

[0, 1, 2, 4, 5, 6, 7, 8, 9, ‘python’, ('a', 'b', 'c')] 


列表 分 片 

取 列 表 L1 的 第 3 到 最 后 一 个 元 素 组 成 的 新 列表 ， 执 行 命令 L112:] 

[100, 'd', 'e', 'f', 'g'] 

取 列 表 L2 的 第 2 个 到 倒数 第 2 个 元 素 组 成 的 新 列表 ， 步 长 为 2， 执 行 命令 L2[1:-1:2] 
[1, 4, 6, 8, 'python'] 


king&debian8:-/code/crawler$ 


图 2-9 运行 showListpy 


列表 还 有 很 多 其 他 的 函数 和 操作 方法 ， 如 有 兴趣 可 以 参考 官方 文档 和 Google。 列 表 和 元 
组 非常 相似 ， 掌 握 了 列表 ， 就 基本 掌握 了 元 组 。 列 表 是 Python 编程 中 必 不 可 少 的 一 种 数据 类 
型 。 


2.1.4 元 组 

Python 的 元 组 与 列表 非常 相似 ， 不 同 之 处 在 于 元 组 的 元 素 是 不 可 修改 的 ， 是 一 个 不 可 变 
序列 〈 意 思 是 赋值 后 就 无 法 再 修改 了 。 同 列表 一 样 ， 可 以 用 序列 号 来 访问 ， 有 点 类 似 C 语言 
中 的 常量 ) 。 列 表 使 用 0] 声明 ， 元 组 使 用 0 声明 。 
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执行 命令 var = (0。 因 为 元 组 中 元 素 是 不 可 修改 的 ， 所 以 列表 中 的 操作 方法 insert. append, 
pop 等 操作 对 于 元 组 都 没有 。 又 因为 元 组 与 列表 的 高 度 相似 性 ， 列 表 的 切片 对 元 组 是 完全 适 
用 的 (切片 并 不 改变 原始 数据 ) ， 所 以 只 需要 记 住 一 个 原则 ， 列 表 中 修改 元 素 值 的 操作 元 组 
都 不 可 用 ， 列 表 中 不 修改 元 素 值 的 操作 元 组 基本 上 都 可 以 用 。 

元 组 和 列表 是 可 以 互相 转换 的 。 使 用 tuple(lis) 可 以 将 一 个 列表 转换 成 元 组 ， 反 过 来 使 用 
list(tuple) 也 可 以 将 一 个 元 组 转换 成 列表 。 


【示例 2-4】 编 写 一 个 showTuple 来 实验 一 下 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 


vi showTuple.py 
showTuple.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 
2 #4-*= coding; tf=8 =*= 
. author = 'hstking hst_king@hotmail.com' 


3 

4 

5 class ShowTuple (object) : 

6 def ^ init (self): 

a self.Tl = () 

8 self.createTuple() # 创 建 元 组 

9 self.subTuple(self.T1) # 元 组 分 片 


10 self.tuple2List(self.T1) # 元 组 、 列 表 转 换 

11 

12 def createTuple (self): 

13 print (" 创 建 元 组 : ") 

14 print ("T1 = (1,2,3,4,5,6,7,8,9,10)") 

15 self.T1 = (1,2,3,4,5,6,7,8,9,10) 

16 print("Tl = "), 

T print (self.T1) 

18 print ('\n') 

H9 

20 def subTuple (self,Tuple): 

21 print (" 元 组 分 片 : ") 

22 print (" 取 元 组 T1 的 第 4 个 到 最 后 一 个 元 组 组 成 的 新 元 组 ， 执 行 命令 T1[3:]") 

23 print (self.T1[3:]) 

24 print (" 取 元 组 T1 的 第 2 个 到 倒数 第 2 个 元 素 组 成 的 新 元 组 ， 步 长 为 2， 执行 命令 
Wi B= eR) 

25 print (self.T1[1:-1:2]) 

26 print ('\n"') 

27 

28 def tuple2List (self, Tuple): 
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29 print (" 元 组 转换 成 列表 : ") 


30 Print (" 显 示 元 组 ") 

31 pene (Ti =), 

er print (self.T1) 

33 print ("执行 命令 L2 = list(T1)") 

34 L2 = list(self.T1) 

35 print (" 显 示 列 表 ") 

36 print ("2 e "), 

37 print (L2) 

38 print ("列表 追加 一 个 元 素 100 后 ， 转 换 成 元 组 。 执 行 命令 L2 .append(100) 
tuple (L2)") 

39 L2.append (100) 

40 print (" 显 示 新 元 组 ") 

41 print (tuple (L2) ) 

42 

43 

44 if name == ' main "': 


45 st - ShowTuple() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 showTuple.py. showTuple.py 显示 了 Python 
元 组 的 创建 、 分 片 和 转换 。 执 行 命令 : 


Python3 showTuple.py 


得 到 的 结果 如 图 2-10 所 示 。 


ingedebian8:~/code/crawlerS [pythons showTuple.py 


) 8 76 1H : 
1 = (1,2,3,4,5,6,7,8,9,10) 


(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) 


元 组 分 片 : 

元 组 ?1 的 第 4 个 到 最 后 一 个 元 组 组 成 的 新 元 组 ， 执 行 命令 ?7113:] 
(4, 5, 6, 7, 8, 9, 10) 

元 组 ?1 的 第 2 个 到 倒数 第 2 个 元 素 组 成 的 新 元 组 ， 步 长 为 2， 执 行 命令 T1[1:-1:2] 
(2, 4, 6, 8) 


4, 5, 6, 7, 8, 9, 10) 
Tf fr L2 = list(T1) 
列表 


[1, 2, 3, 4, 5, 6, 7, 8, 9, 10] 

叶 表 追加 一 个 元 素 100 后 ， 转 换 成 元 组 。 执 行 命 令 L2.append(100) tuple(L2) 
示 新 元 组 

(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 100) 

ing@debian8 :~/code/crawler$ 


图 2-10 运行 showTuple.py 


因为 元 组 和 列表 高 度 相似 ， 绝 大 部 分 场合 都 可 以 用 列表 来 蔡 代 元 组 。 
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Fe | 元 组 和 列表 的 不 同 仅 在 于 一 个 可 修改 ， 一 个 不 可 修改 。 其 他 方面 几乎 没有 什么 区 别 。 由 
于 元 组 不 可 修改 的 特性 ， 一 般 在 函数 中 需要 返回 多 个 返回 值 时 ， 可 以 将 这 些 返 回 值 放 入 
一 个 元 组 中 返回 。 


2.4.5 FË 


从 某 种 意义 上 来 说 ,字典 和 列表 也 很 相似 。 字 典 使 用 的 是 {}， 列 表 使 用 的 是 []， 元 素 分 
隔 符 都 是 逗号 。 所 不 同 的 是 列表 的 索引 只 是 从 0 开始 的 有 序 整 数 ， 不 可 重复 ;而 字典 的 索引 
实际 上 在 字典 里 应 该 叫 键 。 虽 然 字典 中 的 键 和 列表 中 的 索引 一 样 是 不 可 重复 的 ， 但 键 是 无 序 
的 ， 也 就 是 说 字典 中 的 元 素 是 没有 顺序 而 言 的 。 字 典 中 的 元 素 任意 排列 都 不 影响 字典 的 使 
用 ， 所 以 也 就 无 法 用 字典 名 + 索引 号 的 方式 来 访问 字典 元 素 。 

字典 的 键 可 以 是 数字 、 字 符 串 、 列 表 、 元 组 …… 有 几乎 什么 都 可 以 ， 一 般 用 字符 串 来 做 
键 ， 键 与 键 值 用 冒号 分 割 。 在 列表 中 通过 索引 来 访问 元 素 ， 而 在 字典 中 是 通过 键 来 访问 键 值 
的 。 因 为 字典 按 “ 键 ” 寻 值 而 不 同 于 列表 的 按 “ 索 引 ” 寻 值 ， 所 以 字典 的 操作 方法 与 列表 稍 
有 区 别 。 

首先 创建 一 个 字典 试验 一 下 ， 执 行 命令 : 


ironMan = ('name':'tony stark','age':47,'sex':'male'} 


这 样 就 建立 了 一 个 简单 的 IronMan 字典 。 因 为 字典 的 键 值 是 无 序 的 ， 所 以 插入 一 个 数据 
无 须 insert 之 类 的 方法 。 直 接 定 义 即 可 ， 执 行 命令 : 

ironMan['college'] = 'NYU' 

ironMan['Nation'] = 'America' 

如 需 添 加 资料 ， 继 续 添加 即 可 。 如 果 发 现 资料 有 误 ， 修 改 字典 ， 同 样 也 是 直接 定义 ， 执 
行 命令 : 

ironMan['college'] = 'MIT' 

如 果 要 删除 某 个 元 素 ， 可 以 使 用 del 命令 。del 命令 可 以 理解 为 取消 分 配给 变量 的 内 存 空 
间 。 执 行 命令 : 


del ironman['Nation'] 


del 命令 不 只 是 可 以 删除 字典 的 元 素 ， 类 似 字典 元 素 、 用 户 定义 的 变量 都 可 以 用 del 来 删 
除 。 它 可 以 删除 数字 变量 、 字 符 串 变量 、 列 表 、 元 组 、 字 典 等 。 

字典 还 有 一 些 独特 的 操作 。 以 下 是 字典 中 最 常用 的 操作 : 

€ dictkeys(): 返回 一 个 包含 字典 所 有 key 的 列表 。 

€ dict.values(): 返回 一 个 包含 字典 所 有 value 的 列表 。 

€  dicLitems(): 返回 一 个 包含 所 有 ( 键 , 值 ) 元 组 的 列表 。 
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©  dictclear): 删除 字典 中 所 有 的 元 素 。 
€  dictget(key): 返回 字典 中 key 所 对 应 的 值 。 


【示例 2-5】 编 写 一 个 showDict 来 实验 一 下 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
vi showDict.py 


showDict.py 的 代码 如 下 : 


1 #!/usr/bin/env python 
2 #=*= coding; utf=8 一 “= 


3 author = 'hstking hst_king@hotmail.com' 

4 

5 class ShowDict (object): 

6 "" "该 类 用 于 展示 字典 的 使 用 方法 “"" 

T def init (self): 

8 self.spiderMan = self.createDict() # 创 建 字典 

9 self.insertDict(self.spiderMan) # 插 入 元 素 

10 self.modifyDict(self.spiderMan) # 修 改元 素 

11 self.operationDict(self.spiderMan) # 字 典 操作 

12 self.deleteDict(self.spiderMan) # 删 除 元 素 

13 

14 def createDict (self): 

15 print ("创建 字典 :") 

16 print ("执行 命令 spiderMan = {'name':'Peter 
Parker','sex':'male','Nation':'Americ', 'college':'MIT')") 

17 spiderMan = {'name':'Peter 
Parker', 'sex':'male', 'Nation':'Americ', 'college':'MIT'} 

18 self.showDict (spiderMan) 

19 return spiderMan 

20 

21 def showDict (self, spiderMan) : 

22 print ("显示 字典 ") 

23 print ("spiderMan = "), 

24 print (spiderMan) 

2S print ('\n') 

26 

27 def insertDict (self, spiderMan) : 

28 print ("字典 中 添加 键 age， 值 为 31") 

29 print ("执行 命令 spiderMan['age'] = 31") 

30 spiderMan['age'] = 31 

31 self.showDict (spiderMan) 

32 

33 def modifyDict (self, spiderMan) : 
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35 
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54 
55 
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print ("字典 修改 键 'college' 的 值 为 'Empire State University'") 


print ("执行 命令 spiderMan['college'] = 'Empire State University'") 


spiderMan['college'] = 'Empire State University' 


self.showDict (spiderMan) 


def operationDict (self, spiderMan) : 


print ("字典 的 其 他 操作 方法 ") 
print HHHHEHHEHHHHEHHEHHEHHHHHHRHR) 


Print (" 显 示 字 典 所 有 的 键 ，keyList = spiderMan.keys()") 


keyList = spiderMan.keys() 
print ("keyList = "), 

print (keyList) 

print ("\n') 


print ("显示 字典 所 有 键 的 值 ，valueList = spiderMan.values()") 


valueList = spiderMan.values() 
print ("valueList = "), 

print (valueList) 

print ('\n') 


print ("显示 字典 所 有 键 和 值 的 元 组 ，itemList = spiderMan.items()") 


itemList = spiderMan.items() 
print("itemList = "), 

print (itemList) 

print('\n') 

print (" 取 字 典 中 键 为 college 的 值 , college = 
college = spiderMan.get('college') 
print ("college = %s" %college) 

print ('\n') 


def deleteDict (self, spiderMan) : 
print ("删除 字典 中 键 为 Nation 的 值 ") 
print ("执行 命令 del(spiderMan['Nation'])") 
del (self.spiderMan['Nation']) 
self.showDict (spiderMan) 
print ("清空 字典 中 所 有 的 值 ") 
print ("执行 命令 spiderMan.clear()") 
self.spiderMan.clear() 
self.showDict (spiderMan) 
print ("删除 字典 ") 
print ("执行 命令 del(spiderMan)") 
del (spiderMan) 
print ("显示 spiderMan") 
try: 

self.showDict (spiderMan) 


spiderman.get ('college')") 
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Tid except NameError: 

78 print ("spiderMan 未 被 定义 ") 
79 

80 

81 if _ name ==" main_"'; 


82 sd = ShowDict() 


得 到 的 结果 如 图 2-11 所 示 。 


king@debian8: ~/code/crawler 


king&debian8:-/code/crawleri[ python3 showDict.py 

创建 字典 : 

执行 命令 spiderMan = {'name':'Peter Parker','sex':'male','Nation':'Americ','col 
显示 字典 

spiderMan = 

('Nation': 'Americ', 'sex': 'male', ‘college’: 'MIT', 'name': ‘Peter Parker') 


字典 中 添加 键 age， 值 为 31 

执行 命令 spiderMan['age'] = 31 

显示 字 

spiderMan = 

{'Nation': 'Americ', 'sex': 'male', ‘college’: 'MIT', 'age': 31, ‘name’: ‘Pete 


字典 修改 刍 'college' 的 值 为 'Empire State University" 

执行 命令 spiderMan['college'] = 'Empire State University’ 

显示 字典 

spiderMan = 

{"Nation': 'Americ', 'sex': 'male', ‘college’: ‘Empire State University’, ‘age 


字典 的 其 他 操作 方法 

CT 

显示 字典 所 有 的 键 ，keyList = spiderMan.keys() 

keyList = 

dict keys(['Nation', 'sex', ‘college’, ‘age’, 'name']) 


显示 字典 所 有 键 的 值 ，valueList = spiderMan.values() 
valueList = 
dict values(['Americ', ‘male’, ‘Empire State University', 31, 'Peter Parker']) 


显示 字典 所 有 键 和 值 的 元 组 ，itemList ~ spiderMan.items() 
itemList ~ 
dict items([('Nation', 'Americ'), ('sex', 'male'), ('college', ‘Empire State Ul 


We RP BA collegelf]ffl, college = spiderman.get('college') 
college = Empire State University 


删除 字典 中 键 为 Nation 的 值 
执行 命令 del(spiderMan['Nation']) 
显示 字典 


'male', 'college': 'Empire State University', 'age': 31, 'name': ‘Pete! 


清空 字典 中 所 有 的 值 
执行 命令 spiderMan.clear() 
显示 字典 


spiderMan = 


执行 命令 del(spiderMan) 

显示 spiderMan 

spiderMan 未 被 定义 
kingêdebian8:~/code/crawler$ |j 


2-11 运行 showDict.py 
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Python 3 的 基本 变量 类 型 就 是 这 些 。 其 他 的 类 型 几乎 都 是 由 这 些 基 本 类 型 组 合 而 来 
(Python 还 有 特殊 的 数据 类 型 None 和 boolean) 。 


D 字典 的 键 和 键 值 可 以 是 任何 类 型 。 在 没有 什么 特殊 要 求 的 情况 下 ， 尽 可 能 地 使 用 字符 串 | 
L 作为 键 。 如 果 把 键 设置 得 太 复杂 了 ， 就 失去 字典 的 意义 了 。 


Python 语句 


说 到 语句 ， 回 想 一 下 C、C++、Java、Perl 等 ， 似 乎 所 有 的 编程 语言 都 有 类 似 的 语句 : 条 
件 判断 、 有 限 循环 、 无 限 循环 ， 这 几 个 是 最 基本 的 ， 也 是 必 不 可 少 的 。 每 个 编程 语言 都 差 不 
多 。 熟 悉 了 这 几 个 语句 后 ， 即 使 是 一 门 从 未 接触 过 的 语言 ， 稍 微 了 解 一 下 格式 语法 就 可 以 用 
新 的 语言 解决 一 般 的 小 问题 了 。 


2.2.1 条 件 语句 if else 


似乎 所 有 的 条 件 语句 都 使 用 if……else……。 它 的 作用 可 以 简单 地 概括 为 “ 非 此 即 彼 ”。 
满足 条 件 A 则 执行 A 语句 ， 否 则 执行 B 语句 。Python 的 让 ……else…… 功 能 更 加 强大 ， 在 if 
和 else 之 间 添 加 数 个 elif， 有 更 多 的 条 件 选 择 。 其 表达 形式 如 下 : 

if 判断 条 件 1: 

执行 语句 1 

elif 判断 条 件 2: 

执行 语句 2 

elif 判断 条 件 3: 

执行 语句 3 

else: 


执行 语句 4 


【示例 2-6】 编 写 testIfRemainder7.py 熟悉 一 下 Python 3 下 的 论语 句 。testIfRemainder7.py 
用 来 检验 输入 数字 能 否 被 7 整除 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 


vi testIfRemainder7.py 


testIfRemainder7.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 

2 $-*- coding: utf-8 -*- 

3 author = 'hstking hst kingGhotmail.com' 
4 

5 


41 


6 def isEvenNum (num): 


7 if num$7 -- 
8 print ("td 可 以 被 7 SHR" snum) 
9 else: 
10 print ("sd 不 可 被 7 整除 ”snum) 
11 
12 if _ name == main _'"; 
13 numStr = input (" 请 输入 一 个 整数 : ") 
14 try: 
i5 num = int(numStr) 
16 except ValueError as e: 
17 print (" 输 入 错误 ， 要 求 输入 一 个 整数 ") 
18 exit () 
19 
20 isEvenNum (num) 


JA Esc 键 ， 进 入 命令 模式 后 输入 :wq 保存 testlfRemainder7.py. testlfRemainder7.py 要 求 
用 户 输入 一 个 整数 ， 然 后 判断 这 个 数 能 否 被 7 整除 ， 基 本 就 是 一 个 最 简单 的 非 此 即 彼 的 判 


断 。 执 行 命令 : 


Python3 testIfRemainder7.py 


得 到 的 结果 如 图 2-12 所 示 。 


万 king@debian8: ~/code/crawler 


ing@debian8:~/code/crawler$ 
输入 一 个 整数 : 10 
Po 不 可 被 7 整除 


ing@debian8:~/code/crawler$ 
输入 一 个 整数 : 20 
0 不 可 被 7 整除 


ing@debian8:~/code/crawler$ 
输入 一 个 整数 : 14 
La 可 以 被 7 整除 


python3 


python3 


python3 


python3 


testIfRemainder7. 


testIfRemainder7. 


testIfRemainder7. 


testIfRemainder7. 


输入 一 个 整数 :0 
可 以 被 7 整除 


Hm 
ing&debian8:-/code/crawlers M 


2-12 run testIfRemainder7.py 
非常 简单 。 按 照 格 式 ， 照 猫 画 虎 就 可 以 解决 类 似 的 问题 了 。 
case switch 是 C 语言 中 经 典 的 条 件 语句 之 一 。 可 惜 的 是 Python 中 并 没有 Case 语句 。 不 
过 没关系 ，if elif else 完全 可 以 蔡 代 case 语句 。 如 果 愿 意 开动 脑筋 ，Python 3 中 还 有 很 多 可 以 


替代 case 语句 的 方案 ， 例 如 利用 字典 什么 的 ， 这 里 就 不 


Hj 


RRT o- 


2.2.2 ”有 限 循环 一 一 for 
在 编程 时 ， 总 会 遇 到 这 种 事情 ， 把 某 个 过 程 重复 N 


次 。 这 是 每 个 编程 语言 都 不 可 避免 


的 。 好 在 几乎 所 有 的 编程 语言 都 提供 for 语句 。 它 的 作用 是 将 一 个 语句 块 、 函 数 等 重复 执行 
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有 限 的 次 数 。 

for 循环 表达 形式 如 下 : 

for Var in Sequence: 

执行 语句 

比如 从 1 加 到 100。 大 数学 家 高 斯 (Johann Karl Friedrich Gauss ) 10 岁 时 就 给 出 了 计算 
的 公式 。 虽然 已 经 有 了 简单 的 方法 ， 用 笨 方 法 验算 一 下 也 不 错 。 

【示例 2-7] 编写 testForGauss10.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 

cd code/crawler 


vi testForGauss10.py 


testForGauss10.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 
2 coding: tf=8 =*= 


3 author = 'hstking hst_king@hotmail.com' 
4 

5 def cumulative (num): 

6 sum = 0 

7 for i in range(1,num+1): 

8 sum += i 

9 return sum 间 累 加 函数 ， 返 回 累 加 后 的 值 

10 

11 def main(): 

12 while True: 

ns 

14 print (" 输 入 exit 退出 程序 : 

Ls str num = input ("从 1 累加 到 : ") 

16 if ‘str num == "exit": 

17 break 

18 try: 

19 sum = cumulative (int (str_num) ) 

20 except ValueError: 

21 print (" 除 非 退出 输入 exit， 只 能 输入 数字 ") 
22 continue 
23 print ("从 1 累加 到 %q 的 总 数 是 sd" % (int (str_num),sum)) 
24 
25 

26 if pame == "main " 
27 main () 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 testForGaussl0.py. testForGauss10.py 将 使 用 
最 笨 的 方法 求 从 1 加 到 100 的 和 ， 使 用 for 循环 一 个 数 一 个 数 地 全 加。 执行 命令 : 
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python3 testForGauss10.py 


得 到 的 结果 如 图 2-13 所 示 。 


P king@debian8: 


king@debians: 


~/code/crawler d [s] x 


code/crawiers| python3 testForGaussl0.py ^ 


从 1 累加 到 : 10 

从 1 累加 到 10 的 总 数 是 55 

输入 exit 退 出 程序 : 

从 1 累加 到 : 100 

从 1 累加 到 100 的 总 数 是 5050 
输入 exit 退出 程序 : 

从 1 累加 到 : 1000 

从 1 累加 到 1000 的 总 数 是 500500 
输入 exit 退 出 程序 : 

从 1 累加 到 : 10000 

从 1 累加 到 10000 的 总 数 是 50005000 
输入 exit 退出 程序 : 

从 1 累加 到 : exit 


king@debian8:~/code/crawlers Bj 


图 2-13 运行 testForGauss10.py 
经 过 验算 ， 聪 明 办 法 和 笨 办 法 得 到 的 结果 一 致 。for 循环 用 于 数字 循环 时 可 以 使 用 for x 
in range(start_num, stop_num)。 与 Python 2 略 有 不 同 的 是 Python 3 中 没有 xrange 函数 了 ， 只 
剩 下 了 range 函数 ， 而 且 range 函数 返回 的 也 不 是 一 个 列表 ， 而 是 一 个 生成 器 。 


2.2.8 无限 循环 while 
既然 有 有 限 循环 ， 当 然 就 有 无 限 循环 了 。 无 限 循环 的 作用 是 ， 只 要 不 满足 某 种 条 件 ， 就 
一 直 循环 下 去 ， 直 到 满足 条 件 为 止 。while 循环 表达 形式 如 下 : 


while Boolean expression: 


执行 语句 


【示例 2-8] Linux 终端 登录 就 是 一 个 类 似 while 循环 的 示例 。 下 面 模 拟 Linux 终端 登录 ， 
编写 testWhileSimulateLogin.py。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
vi testWhileSimulateLogin.py 


testWhileSimulateLogin.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 

2 $-*- coding: utf-8 -*- 

3 _ author = 'hstking hst_king@hotmail.com' 
4 

5 import getpass 

6 

7 class FakeLogin (object): 
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28 
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def _ init__(self): 
self.name = 'king' 
self.password = 'haha,no pw' 
self.banner = 'hello, you have login system' 
self.run() 


def run(self): 
' i Linux 终端 登录 窗口 ''' 
print ("不 好 意思 ， 只 有 一 个 用 户 king") 
print ("偷偷 地 告诉 你 ,密码 是 6 个 8 R") 
while True: 
print ("Login:king") 
pw = getpass.getpass ("Password:") 
if pw == '88888888': 
print ("%s" %self.banner) 
print ("退出 程序 ") 
exit() 
else: 
if len(pw) > 12: 
print ("密码 长 度 应 该 小 于 12") 
continue 
elif len(pw) < 6: 
print ("密码 长 度 大 于 6 才 对 ") 
continue 
else: 
print ("可 惜 ， 密 码 错误 。 继 续 猜 ") 


continue 


name == ' main ': 


1 = FakeLogin() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 testWhileSimulateLogin.py 。 
testWhileSimulateLogin.py 脚本 模拟 Linux 登录 ， 只 有 输入 了 正确 的 密码 才 退 出 程序 ， 输 入 了 
背 误 的 密码 则 给 出 相应 的 提示 ， 直 到 输入 正确 为 止 。 因 为 不 知道 会 输入 多 少 次 才 会 退出 ， 所 
以 这 里 使 用 while 循环 正好 。 执 行 命令 : 


python3 testWhileSimulateLogin.py 


得 到 的 结果 如 图 2-14 所 示 。 
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BP kingGdebian8: ~/code/crawler - n x 


king&debian8:-/code/crawlers[python3 testWhileSimulateLogin.py ^ 
不 好 意思 ， 只 有 一 个 用 户 king 
偷偷 地 告诉 你 ， 密 码 是 6 个 8 哦 


hello, you have login system 
退出 程序 
king@debian8:~/code/crawlers fj 


图 2-14 运行 testWhileSimulateLogin.py 
实际 上 目前 的 终端 登录 都 有 次 数 限制 ， 不 可 能 这 样 无 限 地 输入 密码 进行 测试 ， 否 则 就 会 
被 暴力 破解 。 正 好 这 个 程序 没有 限制 ， 有 兴趣 的 可 以 自行 编写 程序 ， 实 验 一 下 暴力 破解 密 
码 。 


ua 使 用 while 循环 时 ， 最 后 一 定 要 有 一 个 满足 条 件 的 出 口 ， 和 否则 就 是 死 循环 。 | 


2.2.4 ”中 断 循 环 一 一 continue、break 


continue 和 break 语句 都 只 能 作用 于 循环 之 中 ， 只 对 循环 起 作用 (for 循环 和 while 循环 
都 可 以 ) 。continue 的 作用 是 ， 从 continue 语句 开始 到 循环 结束 ， 之 间 所 有 的 语句 都 不 执 
行 ， 直 接 从 下 一 次 循环 重新 开始 ， 而 break 语句 的 作用 是 退出 循环 ， 该 循环 结束 。 

【示例 2-9】 用 continue. break 来 做 一 个 随机 猜 数 字 的 游戏 。 先 给 定 一 个 数值 范围 ， 系 统 
在 给 定 的 范围 内 随机 选取 一 个 数 ， 然 后 来 猜 这 个 随机 数 是 多 少 ， 猜 对 了 就 直接 退出 ， 猜 错 了 
系统 则 提示 猜 的 数字 与 随机 数 相 比 是 大 了 还 是 小 了 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 

cd code/crawler 

vi guessNum.py 


guessNum py 的 代码 如 下 : 


#!/usr/bin/env Python3 
#-*- coding: utf-8 -*- 
. author = 'hstking hst_king@hotmail.com' 


class GuessNum(object): 
U AEMT AN 
def init (self): 
10 print ("随机 产生 一 个 0-100 的 随机 数 ") 


à 
2 
8 
4 
5 import random 
6 
a 
8 
9 
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37 
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Bg 


self.num = random. randint (0,101) 
self.guess() 


def guess (self): 

i20 

while True: 
print (" 猜 这 个 随机 数 ，0-100") 
strNum = input (" 输 入 你 猜 的 数字 :") 
i += 1 
try: 

print (V**kkkkkkkkkkkkxxn) 


if int(strNum) < self.num: 
print ("你 猜 得 太 小 了 ") 
continue 

elif int(strNum) > self.num: 
print (" 你 猜 得 太 大 了 ") 
continue 

else: 
print ("你 总 算是 猜 对 了 ") 
print ("你 总 共 猜 了 %d K" $i) 
break 

except ValueError: 
print (" 只 能 输入 数字 ， 继 续 猜 吧 ") 
continue 


print ("如 果 没 有 continue 或 break， 就 会 显示 这 个 ， 要 不 要 试 试 ? ") 


. name  -- ' main ，: 


gn = GuessNum() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 guessNum.py. guestNum 先 指定 了 一 个 1-100 
的 随机 数 。 然 后 开始 猜 这 个 随机 数 是 多 少 ， 一 般 来 说 5 次 左右 就 可 以 猜 出 来 。 如 果 能 一 次 猜 
到 这 个 随机 数 ， 有 这 么 逆 天 的 运气 还 是 赶紧 买 几 注 彩票 试 试 吧 。 执 行 命令 : 

python3 guestNum.py 


得 到 的 结果 如 图 2-15 所 示 。 
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i kingGdebian8: ~/code/crawler 


king@debian8:~/code/crawler$ [python3 guessNum.py 


随机 产生 一 个 0-100 的 随机 数 


你 猜 得 太 
猜 这 个 随 
输入 你 猜 


图 2-15 运行 guessNum.py 


试 一 下 ， 要 猜 多 少 次 才 会 猜 对 这 个 随机 数 。 


dA 一 般 来 说 ， 纯 粹 只 有 循环 而 没有 中 断 循环 的 情况 很 少见 (特别 是 在 while 循环 中 ) ， 大 | 
L 多 都 是 配对 出 现 的 ， 所 以 熟悉 了 循环 还 必须 掌握 中 断 循环 的 方法 。 


2.2.5 ”异常 处 理 一 一 try except 

要 求 输入 的 数据 不 符合 要 求 ， 访 问 列表 、 元 组 下 标 超出 范围 ， 根 据 key 访问 字典 中 的 
key 值 却 发 现 这 个 key 不 存在 …… 编程 时 总 会 遇 上 种 种 意外 。 有 些 编程 语言 在 碰 到 程序 执行 
意外 错误 时 ， 系 统 自动 提示 错误 ， 然 后 退出 程序 。 当 然 ，Python 也 是 这 样 处 理 的 ， 但 略 有 不 
同 的 是 Python 还 给 出 了 其 他 的 选择 。 

在 Python rp, Hj try 来 测试 可 能 出 现 异常 的 语句 ， 然 后 用 except 来 处 理 可 能 出 现 的 异 
常 。try except 的 表达 形式 如 下 : 

try: 

测试 语句 

except 异常 名 称 ， 异 常数 据 : 

处 理 异 常 语句 

except 异常 名 称 ， 异 常数 据 : 

处 理 异 常 语句 

else: 

未 出 现 异常 执行 语句 

finally: 

不 管 有 没有 异常 都 需要 执行 的 语句 
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其 中 ，else 和 finally 都 不 是 必须 选项 。try 和 except 则 是 必须 成 对 出 现 的 ， 可 以 同时 出 现 


多 个 except， 处 理 多 个 异常 情况 。Python 3 的 标准 异常 如 表 2-1 所 示 。 


R21 Python 标准 异常 表 


异常 名 称 描述 

BaseException 所 有 异常 的 基 类 

SystemExit 解释 器 请 求 退出 

KeyboardInterrupt 用 户 中 断 执 行 ( 通 常 是 输入 ^C) 
Exception 常规 错误 的 基 类 

Stoplteration 迭代 器 没有 更 多 的 值 

GeneratorExit 生成 器 (generator) 发 生 异常 来 通知 退出 
StandardError 所 有 的 内 建 标准 异常 的 基 类 
ArithmeticError 所 有 数值 计算 错误 的 基 类 
FloatingPointError 浮 点 计算 错误 

OverflowError 数值 运算 超出 最 大 限制 
ZeroDivisionError 除 (或 取 模 ) 零 〈 所 有 数据 类 型 ) 
AssertionError 断言 语句 失败 

AttributeError 对 象 没 有 这 个 属性 

EOFError 没有 内 建 输入 ， 到 达 EOF 标记 
EnvironmentError 操作 系统 错误 的 基 类 

IOError 输入 /输出 操作 失败 

OSError 操作 系统 错误 

WindowsError 系统 调用 失败 

ImportError 导入 模块 /对 象 失败 

LookupError 无 效 数 据 查询 的 基 类 

IndexError 序列 中 没有 此 索引 Cindex) 

KeyError 映射 中 没有 这 个 键 

MemoryError 内 存 溢出 错误 〈 对 于 Python 解释 器 不 是 致命 的 ) 
NameError 未 声明 /初始 化 对 象 没有 属性 ) 
UnboundLocalError 访问 未 初始 化 的 本 地 变量 

ReferenceError 弱 引 用 (weak reference) 试图 访问 已 经 垃圾 回收 了 的 对 象 
RuntimeError 一 般 的 运行 时 错误 

NotImplementedError 尚未 实现 的 方法 
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(BR) 


异常 名 称 描述 

SyntaxError Python 语法 错误 
IndentationError 缩 进 错误 

TabError Tab 和 空格 混用 
SystemError 一 般 的 解释 器 系统 错误 
TypeError 对 类 型 无 效 的 操作 
ValueError 传 入 无 效 的 参数 
UnicodeError Unicode 相关 的 错误 
UnicodeDecodeError Unicode 解码 时 错误 
UnicodeEncodeError Unicode 编码 时 错误 


UnicodeTranslateError 
Warning 

Deprecation Warning 
FutureWarning 
OverflowWarning 
PendingDeprecationWaming 
RuntimeWaming 


Syntax Warning 


UserWarning 


Unicode 转换 时 错误 

警告 的 基 类 

关于 被 弃 用 的 特征 的 警告 

关于 构造 将 来 语义 会 有 改变 的 警告 

旧 的 关于 自动 提升 为 长 整 型 (long) 的 警告 
关于 特性 将 会 被 废弃 的 警告 

[ 疑 的 运行 时 行为 (runtime behavior) 的 警告 
[ 疑 的 语法 的 警告 

用 户 代码 生成 的 警告 


z| 


z| 


【示例 2-10】 以 常见 的 输入 数据 异常 为 例 ， 编 写 testTryInputpy， 打 开 Putty 连接 到 


Linux， 执 行 命令 : 


cd code/crawler 
vi testTryInput.py 


testTryInput.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 
2 4-*- coding: utf-8 -*- 


3 

4 

5 class TryInput (object) 
6 def > init (self): 
7 self.len = 10 

8 self.numList = 
9 self.getNum() 
10 
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. author  - 'hstking hstking@hotmail.com' 


self.createList () 


ila! def createList (self): 


12 print (" 创 建 一 个 长 度 为 sd 的 数字 列表 "sself.1len) 
13 numL = [] 

14 while len(numL) < 10: 

15 n = input(" 请 输入 一 个 整数 : n) 

16 try: 

17 num = int (n) 

18 except ValueError as e: 

19 print ("输入 错误 ， 要 求 是 输入 一 个 整数 ") 
20 continue 

2 numL.append (num) 

22 print ("现在 的 列表 为 :")， 

23 print (numL) 

24 return numL 

25 

26 def getNum(self): 

27 print ("当前 列表 为 ")， 

28 print (self.numList) 

29 inStr = None 

30 while inStr != 'EXIT': 

31 print ("输入 EXIT 退出 程序 ") 

32 inStr = input ("输入 列表 下 标 [-10, 9]: ") 
33 Ty. 

34 index = int(inStr) 

35 num = self.numList[index] 

36 print ("列表 中 下 标 为 $d 的 值 为 sd" $(index,num)) 
33) except ValueError as e: 

38 print ("输入 错误 ， 列 表 下 标 是 一 个 整数 ") 
39 continue 

40 except IndexError: 

41 print (" 下 标 太 大 ， 访 问 列表 超出 范围 ") 
42 continue 

43 

44 

a5 inr o quince == 1 main Ug 

46 ti - TryInput() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wdq 保存 testTryInput.py. testTryInput.py 的 目的 是 创建 
一 个 数字 列表 ， 在 创建 过 程 中 尝试 各 种 异常 。 执 行 命令 : 


python testTryInput.py 


得 到 的 结果 如 图 2-16 所 示 。 


51 


EP king@debian8: ~/code/crawler 


创建 一 个 长 度 为 10 的 数字 列表 
i 整数 


输入 ExIT 退 出 程序 

输入 列表 下 标 [-10,9]: 100 
下 标 太 大 ， 访 问 列表 超出 范围 
输入 ExIT 退 出 程序 

输入 列表 下 标 [-10,9]: 8 
列表 中 下 标 为 8 的 值 为 9 

输入 ExIT 退 出 程序 


输入 错误 ， 列 表 下 标 是 一 个 整数 


king@debian8:~/code/crawlers fj 


king@debian8:~/code/crawler$ python3 testTryInput.py 


2-16 运行 testTryInput.py 


这 个 程序 针对 输入 出 现 的 异常 和 访问 列表 越界 的 异常 给 出 了 解决 方案 。 编 程 过程 中 总 会 
遇 上 各 种 各 样 的 异常 。 考 虑 周到 一 点 ， 思 维 绩 密 一 点 ， 善 用 try 一 点 ， 程 序 的 健壮 性 就 不 止 


会 强 一 点 点 。 


2.26 ”导入 模块 一 一 import 
Python 最 大 的 优点 不 是 简单 易学 ， 而 是 其 强大 的 模块 


功能 。 前 面 写 的 一 个 程序 ， 后 面 就 


可 以 将 它 当 成 一 个 模块 导入 ， 取 其 精华 弃 其 糟粕 地 随意 使 用 。 最 理想 的 情况 是 任何 一 个 功 


能 ， 只 要 写 一 次 ， 以 后 所 有 人 都 可 以 任意 重复 调用 。 代 码 习 


用 性 非常 高 ， 而 且 Python 还 可 以 


根据 需求 将 C、C++、Java 等 程序 作为 模块 ， 随 意 取 用 。 这 也 是 为 什么 Python 被 称 之 为 胶水 
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语言 的 原因 。 

Python 3 的 标准 模块 一般 也 叫 Python 3 标准 库 ) 是 安装 Python 3 时 自 带 的 模块 ， 具 体 
请 参考 网 页 https://docs.python.org/3/py-modindex.html。 它 包含 了 几乎 所 有 的 常用 功能 。 如 果 
觉得 不 够 ， 没 关系 ， 可 以 用 pip 来 安装 第 三 方 的 模块 ， 这 个 模块 库 就 已 经 非常 强大 了 。 如 果 
还 不 够 ， 也 没关系 ， 还 有 强大 的 github， 全 世界 爱好 Python 的 代码 贡献 者 都 将 成 为 坚实 的 后 
Mio RERE github 中 找到 适用 的 功能 程序 导入 自己 的 程序 里 就 可 以 了 。 对 别人 程序 极度 不 
放心 ， 非 要 自力 更 生 也 行 ， 那 就 辛苦 一 下 ， 自 己 写 个 程序 做 独 有 的 模块 吧 ! 

模块 导入 的 几 种 方式 如 下 ， 可 根据 需要 自行 选择 : 

# 同 时 导入 多 个 模块 

import modulel[, module2[,... moduleN] 

# 导 入 模块 中 的 某 个 函数 、 类 、 变 量 


from modname import namel[, name2[, ... nameN]] 


# 导 入 某 个 模块 中 所 有 内 容 


from modname import * 


每 次 使 用 print 打印 时 ， 总 是 同一 个 颜色 。 能 不 能 使 用 不 同 的 颜色 打印 呢 ? 当然 可 以 ， 第 
三 方 模块 库 里 就 有 相关 的 模块 。 只 需要 使 用 pip 安装 即 可 ， 从 github 中 仔细 找 找 ， 应 该 也 能 
找 得 到 。 在 这 里 自力 更 生 ， 自 己 动手 写 一 个 最 符合 自己 要 求 的 彩色 打印 的 printo 

【示例 2-11】 编 写 colorPrint.py， 将 它 作 为 模块 导入 其 他 Python. 程序 中 使 用 。 打 开 
Putty， 连 接 到 Linux， 执 行 命令 : 


cd code/crawler 


vi colorPrint.py 


colorPrint.py 的 代码 如 下 : 

#!/usr/bin/env python3 

#-*- coding: utf-8 -*- 

. author = 'hstking hst_king@hotmail.com' 


import sys 
class ColorPrint (object): 


def init  (self,color,msg): 
9 self.color = color 


oe 2005QNn-2 


10 self.msg - msg 
Mal self.cPrint (self.color, self.msg) 


r3 def cPrint (self,color,msg) : 
14 colors = { 

1S "blac = "\033[1;30;47m', 

16 'red' > 'N033[1;31;47m' , 

17 'green' : 'N033[1;32; 47m", 
18 'yellow': 'N033[1;33; 47m', 

19 'blue' : 'N033[1;34; 47m' , 
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20 'white' : 'N033[1;37; 47m') 


21 if color not in colors.keys(): 

22 print ("输入 的 颜色 暂时 没有 ， 按 系统 默认 配置 的 颜色 打印 ") 
23 else: 

24 print (" 输 入 的 颜色 有 效 , 开始 彩色 打印 ") 
25 print("$s" %colors[color]) 

26 print (msg) 

27 print ("\033[0m") 

28 

29 

30 if | name  -- '_main_': 

31 cp = ColorPrint (sys.argv[1],sys.argv[2]) 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 ColorPrint.py。 这 里 只 写 入 了 黑色 、 红 色 、 绿 
黄色 、 蓝 色 和 白色 这 几 种 颜色 。 如 需 添 加 其 他 的 颜色 ， 请 自行 Google 一 下 。 执 行 命令 : 


Python3 colorPrint.py black "I'm black" 
python3 colorPrint.py red "I'm red" 
python3 colorPrint.py green "I'm green" 
python3 colorPrint.py yellow "I'm yellow" 
python3 colorPrint.py blue "I'm blue" 
python3 colorPrint.py white "I'm white" 


得 到 的 结果 如 图 2-17 所 示 。 


» 


P king@debian8: ~/code/crawler 


king@debian8:~/code/crawler$ python3 colorPrint.py black "I'm black" 


输入 的 颜色 有 效 , 开 始 彩色 打印 
I'm black 


king@debian8:~/code/crawler$ python3 colorPrint.py red "I'm red" 


输入 的 颜色 有 效 , 开 始 彩色 打印 
I'm red 


king@debian8:~/code/crawler$ python3 colorPrint.py green "I'm green" 


和 输入 的 颜色 有 效 , 开 始 彩色 打印 
I'a green 


kingédebianB:-/code/crawler$ python3 colorPrint.py yellow "I'm yellow" 


输入 的 颜色 有 效 , 开 始 彩色 打印 
I'm yellow 


king@debian8:~/code/crawler$ python3 colorPrint.py blue "I'm blue" 


和 输入 的 颜色 有 效 , 开 始 彩色 打印 


I'm blue 

king@debian8:~/code/crawler$ python3 colorPrint.py white "I'm white" 
输入 的 颜色 有 效 , 开 始 彩色 打印 

T'a white 


king@debian8:~/code/crawlers B 


2-17 运行 colorPrint.py 


彩色 打印 已 经 实现 了 (白色 打印 时 因为 背景 色 也 是 白色 ， 所 以 显示 不 明显 ) ， 下 面 是 将 
ColorPrint.py 当 作 模块 导入 其 他 Python 程序 中 使 用 。 


【示例 2-12] 无 须 太 复杂 ， 写 个 最 简单 的 testColorPrint.py， 只 要 能 将 colorPrint.py 当成 模 
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块 导入 使 用 即 可 。 执 行 命令 : 


cd code/crawler 
Vi testColorPrint.py 


testColorPrint.py 的 代码 如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
__author__ = 'hstking hst_king@hotmail.com' 


# 这 里 的 colorPrint 模块 就 是 从 当前 目录 下 导入 的 colorPrint.py 程序 


J 
2 
3 
4 
5 from colorPrint import ColorPrint 
6 
a 
8 if name == ' main ': 

9 


p black = ColorPrint('black','I am black print') 


10 p black - ColorPrint('red','I am red print') 

iu p black = ColorPrint('green','I am green print') 
12 p_black = ColorPrint('yellow','I am yellow print') 
13 p_black = ColorPrint('blue','I am blue print') 

14 p black = ColorPrint('white','I am white print') 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 testColorPrint.py. testColorPrint.py 尝试 调用 
colorPrint.py 脚本 作为 模块 ， 调 用 该 脚本 的 类 放 到 自己 的 脚本 中 执行 。 执 行 命令 : 


python testColorPrint.py 


得 到 的 结果 如 图 2-18 所 示 。 


Inf king@debian8: ~/code/crawler 
king@debian8:~/code/crawler$ |python3 testColorPrint.py 


RANMEAM FREAD 
I am black print 

LES LLEISUSIAI OUI 
I am red print 

输入 的 颜色 有 效 , 开 始 彩 色 打 印 
I am green print 
MANHMEAR FAEH A 
i am yellow print 

输入 的 颜色 有 效 , 开 始 彩色 打印 
I am blue print 

输入 的 颜色 有 效 , 开 始 彩 色 打 印 


f am white print 


king@debian8:~/code/crawlers ff 


218 ”导入 模块 测试 
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| 将 Python 程序 当成 模块 导入 的 先决 条 件 是， 这 两 个 程序 在 同一 目录 下 。 或 者 将 模块 化 的 
程序 (这 里 就 是 colorPrintpy) 路 径 加 入 Python 的 系统 路 径 中 。 是 不 是 很 简单 兄 ? 其 实 
[ Python 就 是 这 么 简单 


2.3 函数 和 类 


C. C++, Java. Ruby. Perl, Lisp 在 笔者 所 知 的 编程 语言 之 中 ， 所 有 程序 都 是 由 函 
数 〈 有 的 编程 语言 叫做 过 程 、 方 法 什么 的 ) 和 类 组 成 的 。 可 以 说 任何 程序 里 面包 含 的 不 是 函 
数 就 是 类 ，Python 当然 也 不 例外 。 


2.3.1 函数 

在 学 习 UNIX 时 ， 曾 经 有 一 句 非 常 出 名 的 话 是 In UNIX Everything Is A File， 在 UNIX 中 
所 有 的 一 切 都 是 文件 。 在 这 里 可 以 借鉴 一 下 ，In Python Everything Is A Function， 在 Python 
程序 中 ， 所 有 的 一 切 都 是 函数 。 这 是 典型 的 C 语言 写法 ， 把 所 需 的 功能 都 写成 一 个 个 的 函 
数 ， 然 后 由 函数 调用 函数 。 以 此 类 推 ， 最 终 完成 整个 程序 的 功能 。 

还 记得 前 面 提 过 的 暴力 破解 吗 ? 不 管用 什么 工具 ， 暴 力 破解 都 少不了 一 个 合适 的 字典 文 
件 〈 此 字典 非 彼 字典 ， 这 里 的 字典 指 的 是 一 个 包含 密码 的 文件 ， 也 就 是 一 个 密码 集 ， 而 不 是 
Python 的 变量 类 型 ) 。 当 然 网 上 有 很 多 的 密码 字典 可 供 下 载 ， 但 它们 要 么 太 大 ， 遍 历 一 次 需 
要 太 多 的 时 间 ， 要 么 没有 针对 性 ， 根 本 就 不 包含 所 需 的 密码 。 如 果 已 知 了 一 些 可 能 是 密码 的 
字符 串 ， 完 全 可 以 根据 已 知 条件 用 程序 编写 有 针对 性 的 字典 出 来 ， 这 样 会 节省 很 多 时 间 。 

【示例 2-13】 现 在 来 编写 一 个 简单 的 程序 mkPassFileFunction.py。 

mkPassFileFunction.py， 创 建 一 个 有 针对 性 的 专用 密码 字典 。 打 开 Putty 连接 到 Linux， 
执行 命令 : 

cd code/crawler 

vi mkPassFileFunction.py 


mkPassFileFunction.py 的 代码 如 下 : 

#!/usr/bin/env python3 

#-*- coding: utf-8 -*- 

. author = 'hstking hst_king@hotmail.com' 


import os 


import platform 
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import itertools 
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8 import time 


9 

10 def main(): 

11 75. 程序 vee 

12 global rawList # 原 始 数据 列表 
13 rawList = [] 


14 global denyList # 非 法 单词 列表 
15 denyList = [' ','','@"] 

16 global pwList # 最 终 的 密码 列表 
17 pwList = [] 

18 global minLen # 密 码 的 最 小 长 度 
19 minLen = 6 

20 global maxLen 44 [Jf i Ad 
21 maxLen = 16 

22 global timeout 

23 timeout - 3 

24 global flag 

25 flag = 0 

26 run = { 

27 '0':exit, 

28 '1':getRawList, 

29 '2':addDenyList, 

30 '3':clearRawList, 

31 '4':setRawList, 

32 '5':modifyPasswordLen, 

33 '6':createPasswordList, 

34 '7':showPassword, 

35 '8':createPasswordFile 


36 } 

37 

38 while True: 

39 mainMenu () 

40 op = input (' 输 入 选项 : ') 

41 if op in mapl(str,range(len(run))): 
42 run.get (op) () 

43 else: 

44 tipMainMenuInputError() 
45 continue 

46 

47 def mainMenu(): 

48 Mcr s DU 


49 global denyList 
50 global rawList 
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si 
52 
53 
54 
55 
56 
5 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
me 
73 
74 
75 
76 
"ol 
78 
que 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 


global pwList 


:退出 程序 ') 

:输入 密码 原始 字符 串 ') 

:添加 非法 字符 到 列表 ' ) 

:清空 原始 密码 列表 ' ) 

:整理 原始 密码 列表 ' ) 

:改变 默认 密码 长 度 (%d-%d)' %(minLen,maxLen) ) 
:创建 密码 列表 ') 

:显示 所 有 密码 ') 

:创建 字典 文件 ') 


global flag 
clear () 
print('|l'), 
print ('='*40), 
print('||") 
print('|| 0 
print('|| 1 
print('|| 2 
print('|| 3 
print('|| 4 
print ts 
print('|| 6 
print('|| 7 
print('|| 8 
printi"); 


print ('='*40), 


print('|| 


JM 


print(' 当 前 非法 字符 为 : ss' tdenyList) 
print (' 当 前 原始 密码 元 素 为 : $s' $rawList) 
print (' 共 有 密码 %$d 个 " $1en(pwList)) 


if flag: 


print ("已 在 当前 目录 创建 密码 文件 dic.txt") 


else: 


print ("尚未 创建 密码 文件 ") 


def clear(): 


wt ARAM vee 
OS = platform.system() 
if (OS == u'Windows'): 


os.system('cls') 


else: 


os.system('clear') 


def tipMainMenuInputError(): 
"BER ver 


clear () 


print ("只 能 输入 0-7 的 整数 ,等 待 $d 秒 后 重新 输入 ” Stimeout) 


time.sleep (timeout) 


def getRawList(): 
tC "获取 原 始 数据 列表 tnn 


clear () 


94 

95 

96 

97 

98 

99 
100 
101 
102 
103 
104 
105 
106 
107 
108 
109 
110 
111 
112 
113 
114 
115 
116 
alae/ 
118 
119 
120 
121 
122 
123 
124 
125 
126 
127 
128 
129 
130 
131 
132 
133 
134 
135 
136 


global denyList 
global rawList 
print ("输入 回 车 后 直接 退出 ") 
print ("当前 原始 密码 列表 为 :$s" $rawList) 
st = None 
while not st == '': 
st = input (" 请 输入 密码 元 素 字 符 串 :") 
if st in denyList: 
print ("这 个 字符 串 是 预先 设 定 的 非法 字符 串 ") 
continue 
else: 
rawList.append (st) 
clear() 
print (" 输 入 回 车 后 直接 退出 ") 
print (" 当 前 原始 密码 列表 为 :$s"” S$rawList) 


def addDenyList(): 


ML ML 
clear() 
global denyList 
print ("输入 回 车 后 直接 退出 ") 
print ("当前 非法 字符 为 :%s" $denyList) 
st = None 
while not st == ''; 
st = input (" 请 输入 需要 添加 的 非法 字符 串 :") 
denyList.append(st) 
clear() 
print ("输入 回 车 后 直接 退出 ") 
print ("当前 非法 字符 列表 为 :$s" $denyList) 


def clearRawList(): 


"ruf dg Itn. 
global rawList 
rawList - [] 


def setRawList(): 


"ned ttn 
global rawList 

global denyList 

a = set (rawList) 

b = set(denyList) 
rawList = [] 

for str in set(a - b): 
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LESH 
138 
139 
140 
141 
142 
143 
144 
145 
146 
147 
148 
149 
150 
151 
152 
153 
154 
155 
156 
157 
158 
159 
160 
161 
162 
163 
164 
165 
166 
167 
168 
169 
170 
171 
172 
173 
174 
aly fay 
176 
177 
178 
179 


rawList.append (str) 


def modifyPasswordLen(): 
'" "修改 默认 密码 的 长 度 ''' 
clear() 
global maxLen 
global minLen 
while True: 
print (" 当 前 密码 长 度 为 sd-sd" $ (minLen,maxLen)) 
min = input(" 请 输入 密码 最 小 长 度 :") 
max = input (" 请 输入 密码 最 大 长 度 :") 
try: 
minLen = int (min) 
maxLen = int (max) 
except ValueError: 
print ("密码 长 度 只 能 输入 数字 [6-18]") 
break 
if minLen not in range(6,19) or maxLen not in range(6,19): 
print ("密码 长 度 只 能 输入 数字 [6-18]") 
minLen = 6 
maxLen = 16 
continue 
if minLen == maxLen: 
res = input ("确定 将 密码 长 度 设 定 为 $d 吗 ? (Yy/Nn)" $minLen) 
if res not in list('yYnN'): 
print ("输入 错误 ， 请 重新 输入 ") 
continue 
elif res in list('yY'): 
Print ("好 吧 ， 你 确定 就 好 ") 
break 
else: 
print ("给 个 机 会 ， 改 一 下 吧 ") 
continue 
elif minLen > maxLen: 
print ("最 小 长 度 比 最 大 长 度 还 大 ， 可 能 吗 ? 请 重新 输入 ") 
minLen = 6 


maxLen = 16 


continue 
else: 
print ("设置 完毕 ， 等 待 $d 秒 后 回 主 菜单 " stimeout) 
time.sleep (timeout) 
break 


180 def createPasswordList (): 


181 
182 
183 
184 
185 
186 
187 
188 
189 
190 
191 
192 
193 
194 
195 
196 
197 
198 
199 
200 
201 
202 
203 
204 
205 
206 
207 
208 
209 
210 
et 
212 
213 
214 
215 
216 
217 
218 
213 
220 
221 
222 


"Gil gag ItnÀ 
global rawList 
global pwList 
global maxLen 
global minLen 
titleList = [] 
swapcaseList = [] 
for st in rawList: 
swapcaseList.append(st.swapcase()) 
titleList.append(st.title()) 
subl = [] 
sub2 - [] 
for st in set(rawList + titleList + swapcaseList): 
subl.append(st) 
for i in range(2,len(subl) * 1): 
sub2 += list(itertools.permutations (subl,i)) 
for tup in sub2: 
PW = '' 
for subPW in tup: 
PW += subPW 
if len(PW) in range(minLen,maxLen + 1): 
pwList.append (PW) 
else; 
pass 


def showPassword() : 


'"' 显 示 创 建 的 密码 ''' 
global pwList 
global timeout 
for i in range(len(pwList) ): 
if i$4 == 0: 
print ("%s\n" $pwList[i]) 
else: 
print ("%s\t" $pwList[i]), 
print ('\n') 
print ("显示 %d 秒 ， 回 到 主 菜单 " $timeout) 
time.sleep (timeout) 


def createPasswordFile(): 


REDFACE 
global flag 
global pwList 
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223 print (" 当 前 目录 下 创建 字典 文件 :dic.txt") 


224 time.sleep (timeout) 

295 with open('./dic.txt','wt') as fp: 
226 for PW in pwList: 

227 fp.write (PW) 

228 fp.write('\n"') 

229 flag = 1 

230 

Zu 

232 if name  -- ' main ': 


233 main() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 mkPassFileFunction.py. mkPassFileFunction.py fii 
微 复杂 一 点 点 ， 它 的 作用 就 是 根据 用 户 输入 的 “密码 元 素 ” 来 创建 一 个 字典 列表 。 该 脚本 将 
输入 的 元 素 根据 一 定 的 规则 修改 、 添 加 后 当 作 新 元 素 添加 到 元 素 列表 中 去 。 最 后 将 元 素 列表 
排列 组 合 得 到 字典 列表 。 执 行 命令 : 


python mkPassFileFunction.py 


得 到 的 结果 如 图 2-19 所 示 。 


pi 


2-19 运行 mkPassFileFunction.py 


Ai C 语言 的 写法 好 处 就 是 关系 简单 明了 ， 函 数 调用 一 目 了 然 。 如 果 调 用 的 函数 过 多 ， 就 
难免 有 些 混乱 了 。 简 单 功能 的 程序 还 无 妨 ， 稍 大 一 点 项 目 就 有 些 吃力 了 。 


不 要 添加 太 多 的 “密码 元 素 ”， 这 个 程序 只 是 利用 了 Python 3 的 模块 ， 没 有 优化 算法 。 
( 如 果 输 入 的 “密码 元 素 ”超过 了 20 个 ， 那 么 创建 密码 字典 的 时 间 会 非常 长 。 


2.3.2 类 


既然 有 了 In Python Everything Is A Function， 当 然 会 有 In Python Everything Is A Class. 
这 种 C++ 的 写法 就 是 把 所 有 相似 的 功能 都 封装 到 一 个 类 里 。 最 理想 的 情况 是 一 个 程序 只 有 一 
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个 主 程序 ， 然 后 在 主 程序 里 实例 化 类 。 
【示例 2-14】 还 是 以 编写 密码 字典 为 例 ， 将 mkPassFileFunction.py 改编 成 mkPassFileClass.py。 


HA 


F Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 


Vi mkPassFileClass.py 


mkPassFileClass.py 的 代码 如 下 : 


#!/usr/bin/env python3 


© 0-100 50 WM PH 


Q Q Q Q (Q Q M M M I) MV I I I0 9 HÀÓ |BH|ÓpHpÓBHBÓBHÀBÓB^BpÓDsnusmnm 
RUN PO 00-1ous»u0NMwnPeoto0-oous»uNMNneo 


#- 
. author = 'hstking hst_king@hotmail.com' 


*- coding: utf-8 -*- 


import os 


import platform 


import itertools 


import time 


class MakePassword (object): 


def — init (self): 
self.rawList = [] 
self.denyList = ['',' ','Q'] 
self.pwList = [] 
self.minLen = 6 
self.maxLen = 16 
self.timeout = 3 
self.flag = 0 
self.run = { 


*"0':exit, 
'1':self.getRawList, 
'2':self.addDenyList, 
'3':self.clearRawList, 
'4':self.setRawList, 


'5':self.modifyPasswordLen, 


'6':self.createPasswordList, 


'7':self.showPassword, 


'8':self.createPasswordFile 


) 


self.main() 


def main(self): 
while True: 
self.mainMenu() 
op = input (' 输 入 选项 : ') 
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36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
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52 
53 
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55 
56 
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61 
62 
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64 
65 
66 
67 
68 
69 
70 
gu 
72 
TS 
74 
23 
76 
TI 
78 


if op in map (str, range(len(self.run))): 


self.run.get (op) () 


else: 


self.tipMainMenuInputError () 


continue 


def mainMenu (self): 


self.clear() 


print('|l'), 
print('2'*40), 


:改变 默认 密码 长 度 (%d-%d)' $(self.minLen,self.maxLen)) 


print) 

print('|| 0: 退 出 程序 ') 

print ("|| 1: 输 入 密码 原始 字符 串 ') 
print ("|| 2: 添 加 非法 字符 到 列表 ') 
print ("|| 3: 清 空 原始 密码 列表 ') 
print ("|| 4: 整 理 原始 密码 列表 ') 
print('il 5 

print ("|| 6: 创 建 密码 列表 ') 
print ("|| 7: 显示 所 有 密码 ') 
print('|| 8: 创 建 字 典 文件 ') 
print('|l|"), 


print ('='*40), 


print('||' 
print (' 当 前 非法 字符 为 : ss' tself.denyList) 
print (' 当 前 原始 密码 元 素 为 : $s' %self.rawList) 
print (' 共 有 密码 %$d 个 ' $len(self.pwList)) 


) 


if self.flag: 


print ("已 在 当前 目录 创建 密码 文件 dic.txt") 


else: 


print ("尚未 创建 密码 文件 ") 


def clear(self): 
OS = platform.system() 


if (OS == 


"Windows'): 


os.system('cls') 


else: 


os.system('clear') 


def tipMainMenuInputError (self): 


self.clear() 


print ("只 能 输入 0-7 的 整数 , 等待 $d 秒 后 重新 输入 "” Stimeout) 


time.sleep (timeout) 


79 def getRawList (self): 


80 self.clear() 

81 print ("输入 回 车 后 直接 退出 ") 

82 print ("当前 原始 密码 列表 为 :%s" tself.rawList) 
83 st = None 

84 while not st == '': 

85 st = input (" 请 输入 密码 元 素 字符 串 : ") 

86 if st in self.denyList: 

87 print (" 这 个 字符 串 是 预先 设 定 的 非法 字符 串 ") 
88 continue 

89 else: 

90 self.rawList.append (st) 

91 self.clear() 

92 print ("输入 回 车 后 直接 退出 ") 

93 print ("当前 原始 密码 列表 为 :%s" tself.rawList) 
94 

95 def addDenyList (self): 

96 self.clear() 

97 print ("输入 回 车 后 直接 退出 ") 

98 print ("当前 非法 字符 为 :$s" $self.denyList) 
99 st = None 

100 while not st == '': 

101 st = input ("请 输入 需要 添加 的 非法 字符 串 :") 
102 self.denyList.append (st) 

103 self.clear() 

104 print ("输入 回 车 后 直接 退出 ") 

105 print ("当前 非法 字符 列表 为 :%s" tself.denyList) 
106 

107 def clearRawList (self): 

108 self.rawList = [] 

109 

110 def setRawList (self): 

Salil, a = set(self.rawList) 

112 b = set (self.denyList) 

113 self.rawList = [] 

114 for str in set(a - b): 

115 self.rawList.append(str) 

116 

alat def modifyPasswordLen (self): 

118 self.clear() 

119 while True: 

120 print (" 当 前 密码 长 度 为 sd-sd" $(self.minLen,self.maxLen)) 


121 min = input(" 请 输入 密码 最 小 长 度 :") 


122 max = input (" 请 输入 密码 最 大 长 度 :") 


123 Ery: 

124 self.minLen = int (min) 

125 self.maxLen = int (max) 

126 except ValueError: 

127 print ("密码 长 度 只 能 输入 数字 [6-18]") 

128 break 

129 if self.minLen not in range(6,19) or self.maxLen not in range(6,19): 
130 print ("密码 长 度 只 能 输入 数字 [6-18]") 

131 self.minLen = 6 

132 self.maxLen = 16 

133 continue 

134 if self.minLen == self.maxLen: 

135 res = input ("确定 将 密码 长 度 设 定 为 $d 吗 ? (Yy/Nn)" $self.minLen) 
136 if res not in list('yYnN'): 

137 print ("输入 错误 ， 请 重新 输入 ") 

138 continue 

139 elif res in list('yY'): 

140 print ("好 吧 ， 你 确定 就 好 ") 

141 break 

142 else: 

143 print ("给 个 机 会 ， 改 一 下 吧 ") 

144 continue 

145 elif self.minLen > self.maxLen: 

146 print ("最 小 长 度 比 最 大 长 度 还 大 ， 可 能 吗 ? 请 重新 输入 ") 
147 self.minLen = 6 

148 self.maxLen = 16 

149 continue 

150 else: 

151 print ("设置 完毕 ， 等 待 $d 秒 后 回 主 菜单 " Sself.timeout) 
152 time.sleep(self.timeout) 

153 break 

154 

155 def createPasswordList (self): 

156 titleList = [] 

157 swapcaseList = [] 

158 for st in self.rawList: 

159 swapcaseList.append(st.swapcase()) 

160 titleList.append(st.title()) 

161 subl - [] 

162 sub2 — [] 

163 for st in set(self.rawList + titleList + swapcaseList): 


164 subl.append(st) 


165 
166 
167 
168 
169 
170 
171 
172 
173 
174 
175 
176 
177 
178 
aye) 
180 
181 
182 
183 
184 
185 
186 
187 
188 
189 
190 
191 
192 
193 
194 
195 


196 if 


197 


for i in range (2,len (subl) + 1): 
sub2 += list(itertools.permutations (subl,i)) 
for tup in sub2: 
Pw='! 
for subPW in tup: 
PW += subPW 
if len(PW) in range(self.minLen,self.maxLen + 1): 
self.pwList.append (PW) 
else: 


pass 


def showPassword(self): 
for i in range(len(self.pwList)): 
if it4 == 0: 
print ("%s\n" %self.pwList [i] 
else: 
print ("%s\t" $self.pwList[i]), 
print ('\n') 
Print ("显示 %d 秒 ， 回 到 主 菜 单 " $self.timeout) 
time.sleep(self.timeout) 


def createPasswordFile (self): 
print ("当前 目录 下 创建 字典 文件 :dic.txt") 
time.sleep(self.timeout) 
with open('./dic.txt','w*') as fp: 
for PW in self.pwList: 
fp.write (PW) 
fp.write('\n') 
self.flag = 1 


..name  -- ' main ': 


mp = MakePassword() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 mkPassFileClass. P. mkPassFileClass.py 和 
mkPassFileFunction.py 实质 上 没有 什么 区 别 ， 只 是 一 个 使 用 的 是 C 语言 风格 的 函数 调用 ， 一 
个 使 用 的 是 C++ 风格 的 类 实例 化 。 执 行 命令 : 


Python3 mkPassFileClass.py 


得 到 的 结果 如 图 2-20 所 示 。 
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退出 程序 
etree 
:添加 非法 字符 到 列表 
:清空 原始 密码 列表 
:整理 原始 密码 列表 
:改变 默认 密码 长 度 (6-16) 
:创建 密码 列表 
ERRER 


FA 2-20 运行 mkPassFileClass.py 
执行 结果 完全 一 样 。 这 种 C++ 的 写法 好 处 就 是 调用 过 程 简单 ， 不 再 关心 类 具体 的 实现 过 


程 ， 只 需要 调用 其 功能 即 可 ; 但 随 之 而 来 就 是 类 的 继承 、 函 数 重 载 等 麻烦 。 这 种 写法 在 写 大 
项 目 时 可 能 非常 有 用 ， 写 小 程序 也 行 ， 只 是 没有 那么 多 优势 了 。 


这 个 程序 还 有 一 个 问题 ， 就 是 在 创建 密码 文件 前 并 没有 估算 磁盘 剩余 空间 是 否 足够 。 一 
| 般 的 解决 办 法 是 先 估算 密码 文件 的 大 小 ， 然 后 创建 一 个 大 小 相同 的 空 文件 ， 能 创建 成 功 
就 继续 运行 程序 ， 不 能 则 抛 出 异常 。 


2.4. python 内 置 函数 


自行 设置 函数 很 简单 ， 但 用 户 不 可 能 将 所 有 常用 的 功能 都 设置 成 函数 。Python 很 贴心 地 
将 一 些 常用 的 功能 设置 成 了 内 置 函数 。 这 些 函 数 无 须 从 模块 中 导入 ， 也 无 须 定义 就 可 以 在 任 
意 位 置 直接 调用 。 


241 常用 内 置 函 数 
一 般 常用 的 内 置 函数 如 下 


abs(-1): 求 绝对 值 ， 返 回 1 。 
max([1,2,3]): 求 序列 中 最 大 值 ， 可 以 是 列表 或 元 组 。 
min((2, 3, 4)): 求 序列 中 最 小 值 ， 可 以 是 列表 或 元 组 。 
divmod(6, 3): 取 模 ， 返 回 一 个 元 组 ， 包 含 商 和 余数 。 
int(3.9): 转换 成 整数 ， 去 尾 转换 。 

float(3): 转换 成 浮 点 数 。 

str(123): 转换 成 字符 串 。 
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€  lis((1,2): 元 组 转换 为 列表 。 
€ tuple([1,2]): 列表 转换 成 元 组 。 
€ len([1,3,5]): 求 序列 长 度 ， 可 以 是 列表 或 元 组 。 


这 些 都 是 比较 简单 常见 的 函数 ， 执 行 结 果 如 图 2-21 所 示 。 


B) king@debian8: ~/code/crawler - 口 X 


Python 3.4.2 (default, Oct 8 2014，10:45:20) a 
[GCC 4.9.1] on linux 

Type "help", "copyright", "credits" or "license" for more information. 

>>> abs(-1) 

1 

>>> max([1, 2, 3]) 

3 

>>> min(I[2, 3, 4]) 


>>> divmod(6, 3) 
(2, 0) 

>>> int (3.9) 

3 

>>> float(3) 
3.0 


>>> str(123) 


>>> list ((1,2)) 
i, 2] 

>>> tuple([1, 2]) 
qa, 2) 

»»» len([1, 3, 5]) 


3 
>>> i v 


图 2-21 Python 简单 内 置 函 数 
Python 内 置 函 数 当然 不 止 这 些 ， 但 常用 的 大 致 就 是 这 些 了 。 基 本 无 须 刻意 记忆 ， 多 使 用 
几 次 自然 就 记得 了 。 


242 ”高 级 内 置 函 数 

有 简单 的 内 置 函数 ， 当 然 也 有 相对 高 级 一 点 的 内 置 函数 。 本 小 节 说 明 最 常用 的 几 个 高 级 
内 置 函 数 ， 即 lambda, map. filter. reduce. 

(1) lambda 函数 。 在 Python 中 ，lambda 的 作用 是 定义 一 个 匿名 函数 。 有 时 候 程序 需要 
执行 一 个 功能 ， 但 这 个 功能 非常 简单 ， 也 不 是 一 个 常用 功能 (例如 输入 一 个 数字 ， 返 回 这 个 
数字 乘 2 加 1) 。 没 有 必要 为 此 专门 去 定义 一 个 函数 ， 此 时 就 可 以 使 用 lambda 函数 。 在 
Python 环境 下 执行 命令 : 

f = lambda x: x*2 * 1 


£(3) 
£(5) 


执行 结果 如 图 2-22 所 示 。 
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IB king@debian8: ~/code/crawler 一 口 X 


king@debian8:~/code/crawler$ python3 ^| 
Python 3.4.2 (default, Oct 8 2014, 10:45:20) 

[GCC 4.9.1] on linux 

Type "help", "copyright", "credits" or "license" for more information 

>>> f = lambda x: x*2 + 1 


2-22 Python 高 阶 函数 lambda 


lambda 函数 可 以 简化 程序 ， 节 约 资源 。 如 今 计算 机 资源 很 少 有 不 足 的 情况 ， 也 可 以 定义 
一 个 函数 来 蔡 代 lambda. 

(2) map 函数 。map， 从 名 字 上 就 可 以 看 出 是 一 一 映射 的 意思 。 通 常 一 般 函 数 的 映射 是 
输入 变量 ， 通 过 指定 的 关系 映射 ， 返 回 的 也 是 一 个 变量 。map 稍 有 不 同 ， 它 要 求 输入 的 变量 
是 一 个 函数 和 一 个 序列 〈 通 常 是 列表 ， 也 可 以 是 元 组 或 者 生成 器 ) ， 通 过 一 个 定义 的 函数 对 
序列 中 的 每 个 元 素 进行 一 一 映射 ， 返 回 的 是 一 个 列表 (map. 并 不 改变 作为 参数 的 列表 或 元 
组 ， 但 返回 的 一 定 是 列表 ) 。 在 Python 环境 下 执行 命令 : 

def f(x): 

return x*x 

def printSeq(seq): 

for i in seq: 

print("$d " $i, end-'') 

print (end=’ \n’) 

Ti = [1, 2, 37 4, 5, 6r 1, 87 9] 

S = (x for x in range(1,10)) 


printSeq(li) 
printSeq(s) 


printSeq(map(f, 1i)) 
printSeq(map(f, s)) 


printSeq(map(lambda x:x*x, li)) 
printSeq(map(lambda x:x*x, s)) 


执行 结果 如 图 2-23 所 示 。 
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Hi $61 - python = i 
^ 

:\Users\king>python 

ython 3.6.3 |Anaconda, Inc.| (default, Oct 15 2017, 03:27:45) [MSC v. 1900 64 bi 

上 (AND64)] on win32 


[Iype "help", “copyright”, “credits” or "license" for more information. 
>> def f(x): 
x return x*x 


b>} def printSeq(seq) : 
for i in seq: ) 
print(/&d ^" Wi, end-'" 
print (end= \n’) < 是 生成 器 


b55 1i = [1, 2 3 4 5 6 7 ,8 Le 

p»»[s = (x for x in range(1, OD) 

>>> 

5» printSeq(1i) 

h2345 67893 内 部 元 素 一 至 

>> printSeq(s) — 
23456789 


>>> printSeq(map(f, 1i)) 
1 4 9 16 25 36 49 64 81 


PAE | m E 5 re 
作为 printSeq 函 数 的 参数 
|)>>> printSeq(map(lambda x:x*x, li)) Z 


1 4 9 16 25 36 49 64 81 
p» printSeq(map (lambda x:x*x, s)) 


>>> 中 


图 2-23 Python 高 阶 函 数 map 


使 用 map 函数 对 序列 《列表 或 元 组 、 生 成 器 ) 元 素 一 一 映射 。 不 用 每 次 都 使 用 for 循 
环 ， 精 简 了 代码 ， 使 代码 更 加 通俗 易 懂 。 


(3) filter 函数 。 顾 名 思 义 filter 主要 用 于 过 滤 。 基 本 与 map 函数 相似 ， 不 同 的 是 它 添加 
了 一 个 限定 条 件 〈 不 然 为 什么 叫 过 滤 ) ， 符 合 这 个 条 件 的 才 会 被 输出 ， 不 符合 的 则 去 掉 。 与 
map 函数 相同 的 是 ， 它 输入 的 参数 同样 是 一 个 函数 和 序列 〈 可 以 是 元 组 和 生成 器 ) 。 由 输入 
参数 中 的 函数 来 判断 序列 中 的 哪些 元 素 可 以 通过 返回 、 哪 些 直接 去 掉 ， 最 后 返回 的 也 只 能 是 
一 个 新 的 列表 。 在 Python 环境 下 执行 命令 : 

def f1(x): 

if x$2 -- 


return x 


else: 
pass 


def printSeq(seq): 
for i in seq: 

print("$d " $i, end-") 
print (end='\n') 


li = [x for x in range(1, 10)] 
type (li) 


g = (x for x in range(1, 10)) 
type (g) 
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printSeq (li) 
printSeq(g) 


printSeq(filter(fl, 1i)) 


printSeq(filter(lambda x:x%2==1, li)) 


printSeq(filter(fl, g)) 
printSeq(filter(lambda x:x$2--1, g)) 


执行 结果 如 图 2-24 所 示 。 


pass 


>>> def printSeq(seq) : 

M for i in seq: 
print(^&d ^" Wi, end=’’) 

print (end= Nm 


>> li = [x for x in range(1, 10)] 
>> type(li) 

class ’ list’ > 

b» 


Pi 
P 
K 
> 


>>> printSeq(li 
12345 


> 

> g = (x for x in range(1, 10)) 
> type(s, 

lass ’ generator’ > 


) 


6789 
>>> printSeq(g) 
123456789 


> 
>>> printSeq(filter(fl, 1i)) 
1 3 
>>> printSeq(filter(lambda x:x%2==1, 1i)) 
l1 3 5 7 9 


printSeq(filter(fl, g)) 


printSeq(filter(lambda x:xW2--1, g)) 


b>> 


列表 推导 式 ， 得 到 列表 


< 一 


CE 生成 器 


列表 可 过 滤 ， 生 成 器 不 能 过 滤 


图 2-24 Python 高 阶 函数 filter 


在 使 用 filler 函数 时 ， 要 注意 代入 参数 。 检 查 序列 与 函数 是 否 匹配 。 比 如 lambda 和 简化 


后 的 函数 ， 虽 然 使 用 比较 方便 。 把 列表 作为 参数 时 都 没 问 题 ， 但 把 生成 器 作为 参数 就 有 可 能 


无 法 返 


H| o 


(4) reduce 函数 。 在 Python 2 中 reduce 是 内 置 函 数 ， 但 在 Python 3 中 rudece 被 放置 到 
functools 模块 中 了 。reduce 是 减少 、 缩 小 的 意思 。reduce 函数 针对 的 也 是 序列 ， 参 数 同样 是 
一 个 函数 和 一 个 序列 〈 可 以 是 列表 、 元 组 ， 生 成 器 不 行 ) 。 作 为 reduce 参数 的 函数 必须 是 输 
入 两 个 元 素 、 输 出 一 个 元 素 的 函数 。 只 有 这 样 的 函数 才能 缩小 序列 。 作 为 reduce 参数 的 这 个 
序列 中 必须 包含 2 个 以 上 的 元 素 ， 否 则 也 没 必 要 缩小 序列 了 。reduce 的 运作 过 程 大 致 是 先 取 
出 序列 中 的 前 2 个 元 素 ， 作 为 函数 的 参数 ， 等 待 函数 的 返回 值 ， 然 后 将 这 个 返回 值 与 序列 中 


的 第 3 个 元 素 作 为 函数 的 参数 ， 等 待 函数 的 返回 


值 


以 此 类 推 。 这 个 过 程 类 似 于 递归 。 既 


然 类 似 于 递归 ， 正 好 可 以 处 理 数学 中 的 阶乘 (Python 中 并 没有 直接 的 阶乘 函数 ) ， 也 可 以 用 
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于 序列 求 和 。 两 者 都 是 将 多 个 数字 “合并 ”成 一 个 数字 。 在 Python 环境 下 执行 命令 : 


from functools import reduce 


^ 


li = [x for x in range(1,,5)] 
Mat 
tu = tuple(li) 
tu 
reduce (lambda x, y: x*y, li) 
reduce(lambda x, y: x*y, tu) 
reduce (lambda x, y: x+y, tu) 
reduce (lambda x, y: x+y, li) 
sum(li) 
sum(tu) 
执行 结果 如 图 2-25 所 示 。 

PE 

:\Users\king>python 


, Inc. | (default, Oct 15 2017, 03:27:45) [MSC v.1900 64 bi 


[ype "help", "copyright", "credits" or “license” for more information. 


>>> 


from functools import reduce 


li = [x fi 16h 
ü x for x 1n range 导入 reduce 


2, 3, 4] 
tu = tuple(li) 


(L 2, 3, 4) 


>>[reduce(lambda x, y: x*y, li) 


?»|reduce(lambda x, y: x*y, tu) 


y 
>> reduce(lambda x, y: 
>> reduce(lambda x, y: x+y, li)| 


>> [sum (1i) 


‘sum(tu) 


tu 求 阶乘 


求 和 


pi 
ie 


图 2-25 


Python 高 阶 函 数 reduce 


Python 高 阶 函 数 并 不 常见 。 这 是 因为 总 有 蔡 代 函数 可 以 使 用 ， 但 就 简洁 而 言 ，Python 内 
置 函数 已 经 达到 了 目前 可 以 做 到 的 极致 ， 而 且 内 置 函 数 使 用 快速 方便 ， 如 果 没 有 特殊 要 求 ， 


可 以 考虑 使 用 Python 内 置 函 数 。 
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2.5 python 代码 格式 


Python 是 一 门 新 兴 的 编程 语言 ， 在 格式 方面 与 其 他 大 众 语言 相差 不 大 ， 但 也 有 它 独特 之 
处 ， 尤 其 是 代码 缩 进 。 在 其 他 的 编程 语言 中 ， 代 码 缩 进 大 多 是 为 了 美观 ， 程 序 、 函 数 的 开始 
结束 都 是 由 花 括 号 来 控制 的 。 在 Python 中 却 不 一 样 ， 程 序 、 代 码 块 的 开始 结束 都 是 由 缩 进来 
控制 的 。 所 以 ， 首 先 要 熟悉 的 就 是 Python 的 代码 缩 进 。 


2.5.4 Python 代码 缩 进 
Python 的 缩 进 一 般 来 说 是 4 个 空格 ， 先 严格 按照 这 种 缩 进 方法 来 写 个 测试 代码 。 
Class TestBlank (object): 
Sooo = anit (sles 
mel ll lls tino = 
|----|self.url = v 


以 上 的 代码 中 ---- | 代表 4 个 空格 。 这 才 写 了 个 开头 就 得 40 个 空格 。 要 是 Python 只 能 这 
样 写 ， 那 还 是 选择 C 或 者 C++ 好 了 。 好 在 还 有 备用 方案 ， 可 以 用 Tab 键 来 蔡 代 4 个 空格 。 这 
样 的 好 处 就 是 少 按 了 很 多 次 空格 ， 坏 处 就 是 代码 不 好 移植 。 在 这 台电 脑 上 可 以 运行 的 程序 ， 
换 台 电脑 可 能 就 无 法 直接 使 用 了 。 

既然 变通 了 ， 那 就 变通 到 底 好 了 。 实 际 上 这 也 是 目前 流行 的 做 法 ， 在 自己 的 代码 编辑 器 
上 将 Tab 键 设置 成 4 个 空格 就 可 以 了 。 比 如 Windows 下 的 notepad++ 就 可 以 在 “设置 | 首选 
项 | 语言 ”菜单 中 选中 以 空格 蔡 代 。 其 他 的 Python IDE 中 都 有 类 似 的 设 定 ， 自 行 摸索 一 下 就 
可 以 了 。Linux 下 一 般 用 的 都 是 vi， 那 就 更 加 简单 了 。 在 /etc/vim/vimre 或 者 ~/.vim/vimrc 中 添 
加 代码 : 

set ts=4 

set expandtab 


E 有 的 vi 默认 将 tabstop 定义 成 了 8 个 空格 。 | 


Python 每 行 代码 前 的 缩 进 都 有 语法 和 逻辑 上 的 意义 。 在 严格 要 求 的 代码 缩 进 之 下 ， 代 码 
非常 整齐 规范 ， 赏 心 悦 目 ， 提 高 了 可 读 性 ， 在 一 定 程度 上 也 提高 了 可 维护 性 。 

至 于 Python 的 缩 进 规则 很 简单 。 简 单 说 就 是 ， 同 一 代码 块 纵向 对 齐 。 同 级 别 函 数 〈 不 存 
在 调用 关系 的 ) 纵向 对 齐 ， 每 次 对 齐 都 是 4 个 空格 的 倍数 。 如 果 违 反 这 些 规则 ，Python 是 不 
会 工作 的 ， 只 会 抛 出 一 条 冷冰冰 的 异常 通知 : SyntaxError: invalid syntax. 
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2.5.2 Python 命名 规则 

对 于 给 类 、 函 数 、 变 量 取 名 ， 只 要 不 违反 命名 规则 ， 取 任何 名 字 都 是 可 以 的 。 要 是 不 明 
类 、 函 数 、 变 量 的 作用 不 是 还 有 注释 吗 ? 的 确 是 这 样 的 。 但 如 果 能 “ 望 名 生 义 ” 那 又 何必 
去 添加 多 余 的 注释 呢 ? 另外 ， 统 一 的 命名 法 也 令 程 序 看 起 来 赏心悦目 。 编 写 代码 不 能 以 书法 
让 人 愉悦 ， 那 就 以 名 字 和 格式 让 人 愉悦 吧 ! 


1. 匈牙利 命名 法 


据说 匈牙利 命名 法 是 一 位 叫 Charles Simonyi 的 匈牙利 程序 员 发 明 的 ， 后 来 他 在 微软 待 
了 几 年 ， 于 是 这 种 命名 法 就 通过 微软 的 各 种 产品 和 文档 资料 向 世界 传播 开 了 。 这 种 命名 法 的 
出 发 点 是 把 变量 名 按 属 性 + 类 型 + 对 象 描述 的 顺序 组 合 起 来 ， 以 使 程序 员 定 义 变量 时 对 变量 的 
类 型 和 其 他 属性 有 直观 的 了 解 。 

这 种 命名 方法 的 确 很 好 。 可 惜 的 是 ，Python 的 参数 并 不 像 C. Cer. Java 一 样 ， 声 明 变 
量 无 须 指定 变量 类 型 。 而 且 在 没 用 到 Python GUI 编程 前 也 不 会 遇 到 属性 、 对 象 什么 的 ， 所 以 
这 种 命名 法 还 是 等 到 使 用 GUI 编程 时 再 使 用 吧 。 

2 . 驼峰 命名 法 

驼峰 命名 法 又 称 骆驼 式 命名 法 〈Camel-Case) ， 是 计算 机 程序 编写 时 的 一 套 命名 规则 
(惯例 ) 。 正 如 它 的 名 称 CamelCase 所 表示 的 那样 ， 是 指 混合 使 用 大 小 写字 母 来 构成 变量 和 
函数 的 名 字 。 

驼峰 式 命名 法 就 是 当 变量 名 或 函 式 名 是 由 一 个 或 多 个 单词 连 在 一 起 而 构成 的 唯一 识别 字 
时 ， 第 一 个 单词 以 小 写字 母 开 始 ， 第 二 个 单词 的 首 字母 大 写 或 每 一 个 单词 的 首 字母 都 采用 大 
写字 母 ， 例 如 myFirstName、myLastName， 这 样 的 变量 名 看 上 去 就 像 骆 驼峰 一 样 此 起 彼 伏 ， 
故 得 名 。 驼 峰 命 名 法 又 可 以 分 为 小 驼峰 命名 法 和 大 驼峰 命名 法 。 

变量 和 函数 一 般 用 小 驼峰 法 标识 ， 即 除 第 一 个 单词 之 外 ， 其 他 单词 首 字母 大 写 。 辟 如: 

def getUrl 

urlSre = u'http://ww.baidu.com' 


变量 urlSre 第 一 个 单词 是 全 部 小 写 ， 后 面 的 单词 首 字母 大 写 。 

相 比 小 驼峰 法 ， 大 驼峰 法 把 第 一 个 单词 的 首 字 母 也 大 写 了 ， 有 时 也 被 称 为 帕斯卡 
(pascal) 命名 法 ， 常 用 于 类 名 。 壁 如 : 

Class MyLog (object): 


3 . Guido 推荐 的 命名 规则 
Python 之 父 Guido 推荐 在 Python 中 使 用 的 命名 方法 ， 如 表 2-2 所 示 。 
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3k 2-2 PythonName 


Internal 
Modules low_with_under _lower_with_under 
Packages low_with_under 
Classes CapWords _CapWords 


CapWords 
lower_with_under() _lower_with_under() 


Global/Class Constants | CAPS TITH UNDER | CAPS WITH UNDER 


Global/Class Variables | low with under lower with under 


Instance Variables low with under lower with under (protected) or ^ lower with under 


Method Names low with under() lower with under) (protected) or lower with under() 
(private) 

Function/Method low with under 

Parameters 


Local Variables low with under 


(private) 


命名 约定 如 下 : 

€ 所谓 “内 部 (Internal ) ”表示 仅 模 块 内 可 用 ， 或 者 在 类 内 是 保护 或 私有 的 。 

© 用 单 下 划 线 (_) 开 头 表 示 模 块 变 量 或 函数 是 protected 的 (使 用 import * from 时 不 会 
包含 ) 。 

€ 用 双 下 划 线 (_) 开 头 的 实例 变量 或 方法 表示 类 内 私有 。 

@ ”将 相关 的 类 和 顶级 函数 放 在 同一 个 模块 里 ， 不 像 Java， 没 必要 限制 一 个 类 一 个 模 
块 。 

€ ”对 类 名 使 用 大 写字 母 开头 的 单词 (如 CapWords， 即 Pascal 风格 ) ， 但 是 模块 名 应 


该 用 小 写 加 下 划 线 的 方式 (如 lower with under.py ) ， 尽 管 已 经 有 很 多 现存 的 模块 
使 用 类 似 于 CapWords.py 这 样 的 命名 ， 但 现在 已 经 不 鼓励 这 样 做 ， 因 为 如 果 模块 名 
碰巧 和 类 名 一 致 ， 就 会 让 人 困扰 。 


以 上 三 种 命名 规则 ， 可 以 任 选 一 种 或 者 组 合 使 用 ， 并 没有 强制 要 求 。 理 论 上 来 说 ， 选 择 
Python 推荐 的 命名 规则 比较 好 ， 这 也 是 Google 推荐 的 Python 命名 规则 。 读 者 当然 也 可 以 不 
接受 Google 建议 ， 选 择 自己 喜欢 的 命名 方法 ， 只 要 自己 能 看 懂 ， 交 流 无 障碍 就 可 以 了 。 


2.5.3 Python 代码 注释 
一 个 好 的 程序 员 ， 为 代码 添加 注释 是 编码 时 必须 要 做 的 ， 但 要 确保 注释 中 要 说 明 的 都 是 


重要 的 
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有 情 ， 让 其 他 人 看 一 眼 就 知道 代码 是 干什么 用 的 。 注 释 在 任何 语言 的 代码 中 都 非常 重 


要 ， 没 有 哪 一 种 语言 是 完全 不 需要 注释 的 。 在 Python 中 ， 注 释 还 有 其 他 的 作用 。Python 中 的 
注释 分 为 特殊 注释 、 单 行 注释 和 多 行 注释 。 

1 . Python 特殊 注释 

#!/usr/bin/python3 env 

#=*= coding:utf-8 =*= 

在 所 有 的 Python 代码 开头 都 有 这 两 句 CE Windows 中 写 代 码 可 以 不 用 第 一 行 注释 ,但 
为 了 移植 方便 ， 让 程序 能 直接 在 Linux 下 运行 还 是 加 上 这 行 比较 好 ) 。 

以 上 特殊 注释 的 第 一 行 目的 是 指明 Python 编译 器 位 置 。 第 二 行 则 指定 了 该 程序 使 用 的 字 
符 编码 。 指 定 字符 编码 还 可 以 写成 : 

#coding=utf-8 

Python 3 中 默认 的 就 是 utf-8 编码 ， 但 为 了 兼容 Python 2 还 是 加 上 这 人 句 比 较 好 ，Python 2 
使 用 的 是 ascii 编码 。 


2 . Python 单行 注释 


单行 注释 很 简单 。 不 管 在 代码 的 任何 位 置 ， 只 要 是 # 之 后 的 都 是 注释 ， 但 仅 限 于 本 行 之 
内 ， 不 得 换行 。 单 行 注释 的 代码 如 下 : 

self.timeout = 5 # 网 络 超时 时 间 

self.fileName = './todayMovie.txt' (fg 


单行 注释 不 需要 刻意 对 齐 ， 避 免 出 现 SyntaxError: invalid syntax 的 异常 。 


3 . Python 多 行 注释 

Python 中 的 多 行 注释 采取 的 是 三 个 单 引号 "或 者 三 个 双 引 号 ""。 如 果 多 行 注释 紧 跟 在 定 
义 类 或 者 定义 函数 之 后 ， 则 自动 变 成 了 该 类 或 者 函数 的 doc string。 什 么 是 doc string WE? fj 
单 地 说 就 是 模块 、 类 、 函 数 的 功能 注释 。 

【示例 2-15】 写 一 个 简单 的 例子 ， 一 试 就 清楚 了 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
vi annotation.py 


annotation.py 的 代码 如 下 : 


#!/usr/bin/env python3 
#-*- coding: utf-8 -*- 
. author = 'hstking hst_king@hotmail.com' 


class Annotation (object): 

'"'' 这 是 一 个 用 户 示范 注释 的 类 ， 
多 行 注释 如 果 在 类 或 者 函数 的 定义 之 后 ， 
8 将 被 默认 成 doc string。 


T 
2 
3 
4 
5 
6 
a 


YT 


9 这 里 注释 的 是 该 类 的 功能 性 说 明 ''' 


10 def init (self): 

"a self.run() 

12 

a def run(self): 

14 "" "函数 里 的 doc string, 


15 这 里 注释 的 是 该 函数 的 功能 性 说 明 
16 注释 用 单 引号 和 双 引 号 没有 任何 区 别 "nn 


17 x = 333 # 定 义 了 一 个 int 类 型 的 变量 x 

18 print('x = %d' %x) 

19 "" "好 了 ， 这 里 是 单纯 的 注释 了 。 可 以 注释 多 行 ， 当 然 也 可 以 注释 单行 了 ''' 
20 

21 

22 if _ name == ' main ': 

23 a = Annotation() 


在 annotation.py 中 ， 第 17 行使 用 的 是 单行 注释 ， 第 19 行使 用 的 是 多 行 注释 ， 其 他 的 则 
是 类 和 函数 的 doc string。 至 于 doc string 怎么 显示 ， 也 挺 简 单 的 。 打 开 Putty 连接 到 Linux, 
执行 命令 : 

cd code/crawler 

python3 

import annotation 

print(annotation.Annotation. doc ) 

print(annotation.Annotation.run. doc ) 


TY - 
执行 结果 如 图 2-26 所 示 。 
E 
ingüdebian8:-/code/crawler$ python3 ^ 
ython 3.4.2 (default, Oct 8 2014, 10:45:20) 


linux 
» "copyright", "credits" or "license" for more information. 
>> import annotati 
>> print (annotatio: notation. doc ) 


是 一 个 用 户 示范 注释 的 类 ， 


行 注释 如 果 在 类 或 者 函数 的 定义 之 后 ， 

被 默认 成 doc string. 

里 注释 的 是 该 类 的 功能 性 说 明 

>> print(annotation.Annotation.run. doc ) 
数 里 的 doc string, 

里 注释 的 是 该 函数 的 功能 性 说 明 
es 

>> 


2-26 注释 和 doc string 


注释 就 介绍 到 这 里 。 在 编程 时 不 加 入 注释 ， 当 时 可 能 没什么 问题 ， 待 到 以 后 维护 代码 时 
就 会 发 现 那 是 相当 痛苦 的 事情 。 
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ython 2 fiu 


2.6 python git 


调试 是 Python 编程 中 非常 重要 的 一 环 。 程 序 出 现 什么 问题 ， 查 看 抛 出 的 异常 。 或 者 处 处 
加 print 和 log 找 出 错误 点 ， 再 慢 慢 地 反 推 ， 是 可 以 找到 问题 、 解 决 问题 的 ， 但 是 有 更 简单 的 
方法 为 什么 非得 舍 易 取 难 呢 ? 

在 Linux 和 Windows 平台 有 很 多 第 三 方 调试 工具 ， 一 般 的 Python IDE 基本 也 自 带 了 调 
试 工具 。 工 具 太 多 了 反而 不 好 选择 ， 而 且 也 不 是 随手 就 能 找到 第 三 方 调试 工具 的 。 这 里 仅 示 
范 手 头 上 必定 有 的 Python 自 带 的 调试 工具 ， 其 他 的 第 三 方 调试 工具 都 大 同 小 异 ， 熟 悉 了 最 简 
单 的 ， 其 他 的 也 就 无 师 自 通 了 。 


2.6.1 Windows 下 IDLE 调试 

写 一 个 简单 的 程序 来 做 示例 。 既 然 是 调试 ， 最 好 的 选择 莫 过 于 多 次 调用 函数 的 阶乘 
了 ， 这 个 程序 简单 又 明显 ， 适 合用 来 做 示例 。 打 开 IDLE， 单 击 菜单 栏 的 File | New File, 8] 
建 一 个 新 文档 ， 编 辑 代 码 ， 如 图 2-27 所 示 。 


File Edit Format Run Options Window Help 


l| #!/usr/bin/env python 
#-*- coding:GBK 一 + 一 


def fac(n): 
if ne=1 or n==0: 
re eturn 1 


"return n*fac(n-1) 


ef main(): 
print ( 这 是 一 个 求 阶乘 的 程 


= rav, t input ( 请 输入 一 个 


Fin’) 
正 整 数 :") 


exce E 
print ( FAME, 要 求 输入 一 个 正 整数 ， 退 出 重 来 吧 。 
print('Xd! = Xd' %(n,fac(n))) 


图 2-27 winDebugFactorial.py 


单 击 菜单 栏 File | Save As， 选 择 保存 位 置 后 将 文件 保存 为 winDebugFactorial.py。 下 面 开 
始 调试 winDebugFactorial.py。 
单 击 IDLE 菜单 栏 的 Run | Python Shell， 打 开 Python Shell， 如 图 2-28 所 示 。 
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Python 3.6.4 (v3.6. 
on win32 


Type “copyright”, "credits" d Fle Edt R [Ran] Opti Tr 


#!/usr/bir/ env py | Python Shell 
$-*- coding:utf-3 
Check e Mt 
facin): Run 5 


urn nefac(n-1) 


): 
print(^ Aat 个 求 阶乘 
input (“请 输入 一 个 


int (n) 
except ValueError a: 
print ("输入 错误 ， Exe TESS, BEERE”) 
print ("%d! = Xd" % Cn fac(n) 


and aine 


2-28 打开 Python Shell 


单 击 Python Shell 菜单 栏 的 Debug | Debugger, JJF Debug Control 窗口 ， 如 图 2-29 所 
示 。 


File tdt Shell [Debug] Options Window Help 


Python 3, 6.4 (V Go to File/Line |, 06:54:40) [MSC v.1900 64 bit (AID64)] + 
on win3 E 
Type 和 yeah 


ibe: ON] 


Stack Viewer 
Auto-open Stack Viewer 


2-29 打开 Debug Control 窗口 


然后 在 IDLE 窗口 为 代码 添加 断 点 。 所 谓 断 点 ， 简 单 地 说 就 是 调试 程序 时 需要 停顿 的 位 
， 一 般 在 函数 的 入 口 、 参 数 变化 的 行 添加 。 这 里 只 在 fac 函数 入 口 添加 一 个 断 点 。 单 击 fac 
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函数 入 口 行 ， 再 右 击 ， 弹 出 的 快捷 菜单 中 选择 Set Breakpoint, 


File Edit Format Run Options Window Help 


#!/usr/bin/env python3 
#4 coding:utf-B -+ 


Set Bri 
Clear Breakpoint 


except ValueError as 
print ("$A fai, Erea ÞESS, 退出 重 来 吧 .“) 
print( Xd! = Xd" K(n, fac 
if ~ hang, = *_main_' 


图 2-30 设置 断 点 


现在 可 以 开始 运行 调试 程序 了 ， 单 击 IDLE 窗口 菜单 栏 中 的 Run | Run Module， 如 图 2- 
31 所 示 。 


File Edit Shell Debug Options Window | File Forma 
Python 3.6.4 (v3. d48eceb, Dec 19 20} | #!/usr/bin/env py 
on win32 #-*- coding:utf-8 
Type "copyright", “credits” or "license 


iiim: ON] 


return néfac(n-1) 


def main(): 
print ("这 是 一 个 RARER ) 
ns input (“请 输入 一 个 正 整 


= int (n) 
except ValueError as 
print Ci A fait, EXSA-4 个 正 整数 
print ("idl = kd" X(n, fac(n))) 


E 


图 2-31 运行 调试 程序 
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单 击 Debug Control 窗口 的 Go 按钮 ， 开 始 运行 程序 ， 然 后 单 击 Debug Control 窗口 的 
Step 按钮 ， 逐 步 运行 程序 。 如 果 需 跳出 循环 或 者 跳出 函数 ， 则 单 击 Debug Control 窗口 的 Out 
按钮 。Debug Control 窗口 中 的 Stack 检查 框 显示 的 是 程序 当前 运行 位 置 ，Locals 检查 框 显示 
的 是 当前 变量 的 值 ， 如 图 2-32 所 示 。 


File Edit Shell Debug Options Window Help 


Python 2.7.11 (v2.7. 11:6d1b6a68£775, Dec 5 2015, 20:40:30) [MSC v. 1500 64 bit (~ 
AND64)] on win32 
Type “copyright”, “credits” or "license()" for more information. 


>>> 
(DEBUG ON] 
» 


三 二 ==-=-= RESTART: C: MUsers king DesktopVtestVinDebugFactorial.py ========== 
这 是 一 个 求 防 乘 的 程序 
请 输入 一 个 正 整 数 :4 
Ln: 10 cok0 
M Stack [^ Source 
Go | Step | Over | Out | Quit 
F Locals [^ Globals 
ItestWinDebugFactorial.py:S: fac) 


dule» 0) line 21: 
0, line 17: print(96d! = %d' 96(n,fac(n))) 
8: return n'fac(n-1) 
fac(), line 8: return n*fac(n-1) 


Locals 


图 2-32 Debug Control 


通过 Debug 调试 很 容易 发 现 程序 中 的 错误 之 处 。 虽 然 这 个 Debug 工具 比较 简陋 ， 但 基本 
功能 都 还 齐全 ， 算 是 比较 好 用 的 一 款 Debug 工具 了 。 


2.6.2 Linux 下 pdb 调试 

Linux 下 的 Python 调试 工具 也 很 多 ， 最 简单 、 最 方便 的 可 能 就 是 ptb 了 。pdb 功能 齐 
全 ， 使 用 方便 ， 命 令 几乎 是 一 模 一 样 的 。 先 写 一 个 示范 程序 ， 用 pdb 调试 一 下 。 

【示例 2-16】 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
Vi linuxBugListExtremum.py 


linuxBugListExtremum.py 的 代码 如 下 : 


1 #!/usr/bin/env Python3 

2 #-*= coding: utf-8 -*- 

3 author = 'hstking hst kingGhotmail.com' 
4 

5 import cls 
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49 maxNum = getMaxNum(numList) 
50 print (' 列 表 中 最 大 值 为 :$d' $maxNum) 
SA minNum = getMinNum(numList) 
52 print (' 列 表 中 最 小 值 为 :%d' $minNum) 


linuxBugListExtremum.py 程序 让 用 户 输入 一 组 整数 放 入 列表 中 ， 然 后 从 列表 中 挑选 出 最 
大 值 和 最 小 值 。 以 linuxBugListExtremum.py 为 例 ， 使 用 pdb 调试 。 
第 5 行 的 import cls 导入 的 是 一 个 自 定义 模块 cls.py。 代 码 如 下 : 
#!/usr/bin/env python3 
#=*= coding: utf-8 -*- 
. author = 'hstking hst_king@hotmail.com' 


import platform 


import os 


def clear(): 
OS = platform.system() 
if OS -- 'Windows': 


© 0-00 50M Hd 


H H 
e o 


os.system('cls') 


m 
N 


else: 


m 
m 


os.system('clear') 


FRR 
aun s 


E 
H 
mh 
5 
[7 
a 
© 
Il 
Li 
D 
E: 
I 
B 
E 


18 pass 
下 面 先 简单 地 介绍 一 下 pdb. pdb 在 Python 中 是 以 模块 的 形式 出 现 的 ， 它 是 Python 的 标 
准 库 ， 可 以 在 Python 交互 环境 中 使 用 ， 如 图 2-33 所 示 。 


EP king@debian8: ~/code/crawler 


king@debian8:~/code/crawler$ python3 

Python 3.4.2 (default, Oct 8 2014, 10:45:20) 

[GCC 4.9.1] on linux 

Type "help", "copyright", "credits" or "license" for more information. 
»»» import pdb 

»»» import linuxBugListExtremum 

»»» pdb.run('linuxBugListExtremum.main') 

> «string» (1)«module»() 

(Pab) E 


2-33 ”模块 式 使 用 pdb 


也 可 以 在 程序 中 间 插 入 一 段 程序 ， 相 当 于 在 一 般 IDE 里 面 打 上 断 点 ， 然 后 启动 debug, 
不 过 这 种 方式 是 hardcode 的 ， 如 图 2-34 所 示 o 
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将 pdb 放 入 程序 内 ， 在 运行 程序 时 ， 运 行 到 pdb 行 后 就 暂停 了 ， 然 后 开始 


gP king@debian8: ~/code/crawler 


jetMaxNum (List): 

H 

import pdb 

pdb.set trace() 

num = List[O 
i 


num <= 
num = i 
num 


jetMinNus (List) : 
4 获取 列表 中 最 小 值 
num = List[0] 
i List[1:]: 
num >= i: 
num = i 
num 


. name  -- ' main 
numList = getList() 


maxNum = getMaxNum (numList) 


rint ("列表 中 最 大 值 为 :3d $maxNum) 


50,1 931 v 


图 2-34 程序 内 使 用 pdb 


序 。 这 种 方式 需要 改动 程序 ， 比 较 麻 烦 。 
笔者 更 喜欢 最 后 一 种 方法 ， 即 用 命令 行 启动 目标 程序 ， 加 上 -m 参数 调用 pdb 模块 ， 如 图 
2-35 所 示 。 


i) king@debian’: ~/code/crawler 


king@debian8:~/code/crawler$ 


python3 -m pdb linuxBugListExtremum.py 


> /home/king/code/crawler/linuxBugListExtremum.py (3) «module» (] 


-> author  - 'hstking hst 


(Pdb) ? 


kingéhotmail.com' 


Documented commands (type help <topic>): 


condition down j 


rv undisplay 
quit s unt 


longlist r source until 
display interact n restart step up 


next return  tbreak w 


cont enable jump P retval u whatis 


continue exit 1 


PP run unalias where 


2-35 ”命令 调用 pdb 模块 
图 2-35 显示 了 pdb 的 所 有 命令 ， 这 里 只 说 明 最 常用 的 几 个 : 


list: 显示 程序 ， 可 以 带 参 数 。 比 如 显示 第 47 list 5. 
break: 添加 断 点 。 比 如 在 第 5 行 添加 断 点 break 5, # getList 函数 添加 断 点 break. 


run: 开始 运行 程序 。 


step: 单 步 运行 ， 进 入 函数 内 部 。 
next: 单 步 运行 ， 不 进入 函数 内 部 。 


print: 显示 参数 。 
quit: 退出 pdb。 


?ython 


运 


行 pdb 程 
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下 面 开始 调试 linuxBugListExtremum.py 程序 。 执 行 命令 : 


python -m pdb linuxBugListExtremum.py 


list 52 

break getList 
break getMaxNum 
break getMinNum 
break 


执行 结果 如 图 2-36 所 示 。 


(Pdb) [break getList 


(Pdb) [break getMaxNum 


(Pdb) [break getMinNum 


(Pdb) break 

Num Type Disp Enb 

1 breakpoint keep yes 
breakpoint keep yes 


2 
8 
3 breakpoint keep yes 
8 
t 


Pab) lj 


® king@debian8: ~/code/crawler 


> /home/king/code/crawler/1inuxBugListExtremum. py (3) <module>() 
-> _author_ = 'hstking hst_king@hotmail.com' 


(Pdb) list 52 
47 if name  -- ' main ': 

48 numList = getList() 

49 maxNum = getMaxNum (numList) 

50 print (‘92 rb MX (Xs iid! tmaxNum) 
51 minNum = getMinNum(numList) 

52 print ("列表 中 最 小 值 为 :3%d' tminNum) 
[EOF] 


Breakpoint I at 7home/king/code/crawler/linuxBugListExtremum.py:8 
Breakpoint 2 at /home/king/code/crawler/linuxBugListExtremum.py:28 


Breakpoint 3 at /home/king/code/crawler/linuxBugListExtremum.py:38 


Where 
at /hone/king/code/crawler/linuxBugListExtremum.py:8 
at /home/king/code/crawler/linuxBugListExtremum.py:2 


at /hone/king/code/crawler/linuxBugListExtremum.py:3 


执行 命令 run， 开 始 运行 程序 ， 函 数 外 的 行使 用 next 单 步 运行 ， 到 了 函数 入 口 后 使 用 


图 2-36 pdb 加 入 断 点 


step 单 步 运行 ， 中 途 使 用 print 命令 随时 监视 变量 变化 ， 如 图 2-37 所 示 。 
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> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (15) getList () 


-> print (u' 结 束 构建 列表 ， 请 按 回 车 ') 
(Pdb) 
结束 构建 列表 ， 请 按 回 车 


> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (16) getList () 
-> num = raw_input (' 请 输入 一 个 


(Pab) 


请 输入 一 个 整数 : 10 


Xen 


> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (17)getList() 


-> if num == ' 
(Pdb) print num 
1o 

(Pdb) next 


> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (19) getList () 


> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (20) getList () 


|-> num = int (num) 
(Pdb) 


> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (25) getList () 


|-> numList . append (num) 
(Pdb) 


> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (12) getList () 


-> while num: 

(Pdb) print numList 
110] 

(Pdb) [] 


2-37 ”调试 linuxBugListExtremum.py 


ith 


调试 完毕 后 输入 quit, iB tH pdb. pdb 没有 GUI， 用 起 来 似乎 没有 那么 直观 ， 习 惯 了 还 挺 
方便 。 如 果 偏 爱 GUI， 那 还 是 找 一 个 Python IDE IE, Eclipse + pydev 就 很 方便 ， 支 持 多 个 操 
作 平台 ， 除 了 块头 大 一 点 ， 没 有 什么 缺点 ; 或 者 找 一 个 短小 精干 的 Atom (vscode) ， 也 非常 
方便 。 


pdb 是 Python 调试 工具 ， 也 是 Python 的 标准 模块 之 一 ， 所 以 也 可 以 用 import 将 其 导入 程 
| 序 中 使 用 。 在 Windows 中 也 可 以 使 用 pdb。 


2.7 sang 


Python 的 知识 点 远 不 止 这 么 一 点 点 ， 如 果 读 者 了 解 了 这 些 ， 又 有 一 点 其 他 编程 语言 的 基 
础 ， 基 本 就 可 以 用 Python 来 解决 一 些小 问题 了 。 如 果 需 要 继续 深入 ， 请 自行 参考 教程 或 自行 
搜索 。Python 是 一 门 黏 性 非常 强 的 语言 ， 可 以 调用 别 的 语言 来 编写 自己 的 模块 ， 用 来 弥补 自 
己 的 不 足 ， 因 此 也 被 称 为 胶水 语言 。 虽 然 Python 易学 难 精 ， 但 它 是 一 个 非常 有 用 的 编程 语 
言 ， 通 用 各 大 平台 ， 值 得 投入 精力 深入 学 习 。 
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m3 


第 3 章 
< 简单 的 Python 脚本 > 


Python 的 基础 部 分 已 经 学 完了 ， 下 一 步 可 以 开始 写 Python 程序 了 。 因 为 Python 程序 无 
须 编译 直接 执行 ， 所 以 也 可 以 称 之 为 脚本 。 在 这 里 笔者 把 大 一 点 的 、 复 杂 点 的 Python 脚本 称 
为 程序 ， 把 简单 的 Python 程序 称 为 脚本 。 


九 九 乘法 表 


编写 程序 ， 由 简 到 难 。 似 乎 没有 比 九 九 乘法 表 更 简单 的 程序 了 吧 ， 那 就 从 九 九 乘法 表 开 
fis Python 的 结构 集合 了 C 和 C++ 的 优点 ， 语 法 结构 也 相差 不 远 ， 在 编程 时 只 需 重点 注意 
式 〈 空 格 或 者 Tab SR) 就 可 以 了 。 


3.1.1 Project 分 析 

九 九 乘法 表 ， 从 小 学 就 开始 学 习 ， 每 个 人 都 会 背 。 如 果 把 这 个 表格 排列 整齐 一 点 就 会 发 
现 它 呈现 出 一 个 边 长 为 9 的 直角 三 角形 。 这 个 图 形 从 左 到 右 横 向 是 呈 线 性 递 加 的 。 这 样 的 话 
给 出 一 个 for 循环 正 合适 (while 循环 也 可 以 ， 给 while 循环 加 上 一 个 合适 的 出 口 条 件 就 和 for 
循环 没什么 区 别 了 ) 。 而 纵向 是 也 有 限 〈9 行 ) 递 加 的 ， 再 给 出 一 个 for 循环 就 可 以 了 。 


3.1.2 Project 实施 
【示例 3-1】 编 写 table9x9.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
Vi table9x9.py 


table9x9.py 的 代码 如 下 : 
1 #!/usr/bin/env python3 
Zr coding: ERS) = 
3 author = 'hstking hst_king@hotmail.com' 


简单 的 Python 脚本 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 table9x9.py。table9x9.py 用 于 打印 一 个 九 九 乘 

法 表格 。 执 行 命令 : 

Python3 table9x9.py LLL 
得 到 的 结果 如 图 3-1 所 示 。 

# kingGdebian8: ~/code/crawler 

本 Python3 table9x9.py ^ 


开始 打印 9x9 的 乘法 表 
1Xl- 1 


1X2- 2 2X2- 4 

1X3- 3 2X3- 6 3X3- 9 

1X4- 4 2X4- 8 3X4-12 4X4-16 

1X5- 5 2X5-10 3X5-15 4X5-20 5X5-25 

1X6- 6 2X6-12 3X6-18 4X6-24 5X6-30 6X6-36 

1X7- 7 2X7-14 3X7-21 4X7-28 5X7-35 6X7-42 7X7=49 

X84 8 2X8-16 3X8-24 4X8=32 5X8-40 6X8=48 7X8-56 8X8=64 


1X9- 9 2X9-18 3X9-27 4X9-36 5X9-45 6X9=54 7X9-63 BX9=72 9X9=81 


king&debianB:-/code/crawlers |j 


图 3-1 乘法 表 
十 几 行 的 代码 ， 如 果 愿 意 精简 ， 甚 至 可 以 把 代码 压缩 到 十 行 以 内 。 足 够 简单 了 吧 。 


斐 波 那 契 数列 


斐 波 那 契 数列 (Fibonacci sequence) 又 称 黄金 分 割 数 列 ， 因 数学 家 列 晶 纳 多 。 斐 波 那 契 
(Leonardoda Fibonacci ) 以 兔子 繁殖 为 例子 而 引入 ， 故 又 称 为 “兔子 数列 ”， 指 的 是 这 样 一 
个 数列 : 0、1、1、2、3、5、8、13、21、34…… 在 数学 上 ， 斐 波 那 契 数列 以 如 下 递归 的 方法 
定义 : F (0) =0、F CD =1、F (n) =F(n-1)+F(n-2) (n>2, n€N*) 。 


3.2.1 Project 分 析 

从 斐 波 那 契 数列 的 定义 上 可 以 看 出 ， 求 斐 波 那 契 数列 最 正统 的 方法 就 是 函数 递归 。 不 
过 ， 对 于 Python 而 言 ， 还 有 更 加 简单 的 方法 操作 。 这 得 益 于 Python 独 有 的 数据 类 型 一 一 列 
表 。Python 列表 可 以 使 用 append 方法 在 列表 的 尾部 追加 数据 。 这 样 一 来 ， 求 斐 波 那 契 数列 就 
成 了 简单 的 加 法 游戏 ， 无 须 递归 求解 了 《〈 可 惜 C 语言 中 没有 变 长 数列 ， 否 则 在 C 语言 中 求 斐 
波 那 契 数列 也 很 简单 ) 。 


3.2.2 Project 实施 
【示例 3-2】 编 写 ffbonacci.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
Vi fibonacci.py 


fibonacci.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 
2 ł-*- coding: utf-8 -*- 


3 author  - 'hstking hst_king@hotmail.com' 

4 

5 

6 class Fibonacci (object) : 

7 "7 返回 一 个 fibonacci MH ''' 

8 def _ init (self): 

9 self.fList = [0,1] # 设 置 初始 列表 

10 self.main() 
Wail 
12 def main(self): 
13 listLen = input (' 请 输入 fibonacci 数列 的 长 度 (3-50) :") 
14 self.checkLen(listLen) 
US while len(self.fList) < int(listLen): 
16 self.fList.append(self.fList[-1] + self.fList[-2]) 
17 print (' 得 到 的 fibonacci 数列 为 : \n $s ' $self.fList) 
18 
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19 
20 
21 
22 
23 
24 
25 
26 
2m 
28 
29 


d 


def checkLen(self,lenth): 
lenList - map(str,range(3,51)) 
if lenth in lenList: 
print (' 输 入 的 长 度 符合 标准 ， 继 续 运 行 ' ) 
else: 
print (' 只 能 输入 3-50， 太 长 了 不 是 算 不 出 ， 只 是 没 必要 ' ) 


exit () 


if name == ' main _': 


f = Fibonacci () 


Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 fibonacci.py. fibonacci.py 用 于 创建 一 个 定 长 


列表 ， 该 列表 就 是 斐 波 那 契 数列 。 执 行 命令 : 
python fibonacci.py 
得 到 的 结果 如 图 3-2 所 示 。 


iB king@debian8: ~/code/crawler 


king@debian8:~/code/crawler$ python3 fibonacci.py 


#8 BY ff) Fibonacci M WH: 

(0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597, 2584, 
4181] 
king@debian8:~/code/crawler$ M 


图 3-2 fibonacci 数列 


Python 有 独特 的 列表 类 型 ， 在 获取 递归 队列 时 有 独特 的 优势 。 


概率 计算 


将 理想 状态 绝对 无 误差 的 10 个 同样 的 小 球 从 1~10 标号 ， 然 后 随机 从 中 选 出 1 个 小 球 。 
如 果 选 取 的 次 数 足 够 多 ， 就 可 以 计算 各 个 小 球 被 选取 出 来 的 概率 。 编 写 一 个 Python 程序 来 算 
一 算 ， 看 看 老 天 偏 爱 哪个 数 。 


3.3.1 


Python 


Project 分 析 


这 是 一 个 随机 数 的 问题 。Python 有 个 random 模块 ， 专 门 用 来 解决 这 类 问题 。 据 说 


用 random 选取 出 来 的 随机 数 都 是 伪 随 机 数 。 不 过 也 没关系 ， 只 需要 算出 大 致 的 结果 


就 可 以 了 。 没 计算 之 前 ， 个 人 认为 每 个 球 被 选取 出 来 的 概率 都 一 样 。 下 面 就 来 算 算 看 。 
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3.3.2 Project 实施 
【示例 3-3】 编写 ballpy， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


ball. py 的 代码 如 下 : 


执行 命令 : 
| d 


得 到 的 结果 如 图 3-3 所 示 。 


i king@debian’: ~/code/crawler 一 口 X 


输入 测试 的 次 数 : 10000 ^ 
获取 第 1 号 球 的 概率 为 0.099900 

获取 第 2 号 球 的 概率 为 0.102400 

获取 第 3 号 球 的 概率 为 0.097600 

获取 第 4 号 球 的 概率 为 0.098300 

获取 第 5 号 球 的 概率 为 0.097200 

获取 第 6 号 球 的 概率 为 0.097400 

获取 第 7 号 球 的 概率 为 0.103300 

获取 第 8 号 球 的 概率 为 0.097400 

获取 第 9 号 球 的 概率 为 0.105400 

获取 第 10 号 球 的 概率 为 0.101100 
king@debian8:~/code/crawler$ python3 ball.py 
输入 测试 的 次 数 : 1000000 

获取 第 1 号 球 的 概率 为 0.100442 

获取 第 2 号 球 的 概率 为 0.100433 

获取 第 3 号 球 的 概率 为 0.099782 

获取 第 4 号 球 的 概率 为 0.039890 

获取 第 5 号 球 的 概率 为 0.099387 

获取 第 6 号 球 的 概率 为 0.099721 


获取 第 9 号 球 的 概率 为 0.100321 
获取 第 10 号 球 的 概率 为 0.099875 
kingêdebian8:~/code/crawler$ fj v 


图 3-3 ” 选 球 概率 


果然 如 此 ， 每 个 球 选取 的 概率 差不多 。 选 取 的 次 数 越 多 ， 这 个 趋势 就 越 明显 。 也 就 是 
说 ， 在 理想 状态 下 ， 所 有 球 被 选取 的 概率 是 一 样 的 。 


这 种 选取 小 球 概率 的 计算 方法 只 是 一 种 理想 状态 的 算法 。 类 似 于 丢 硬币 出 现 正 反面 的 概 
| 率 ， 理 论 上 应 该 是 一 半 对 一 半 ， 但 实际 上 由 于 硬币 材质 的 缘故 ， 丢 硬币 的 次 数 越 多 ， 正 
反面 出 现 的 概率 差距 就 越 大 。 


3.4 读 写 文件 


读 写 文件 是 最 常见 的 IO 操作 。Python 内 置 了 读 写 文件 的 函数 ， 用 法 和 C 的 读 写 文件 非 
常 类 似 。 在 磁盘 上 读 写 文件 的 功能 都 是 由 操作 系统 提供 的 ， 现 代 操作 系统 不 允许 普通 的 程序 
直接 操作 磁盘 ， 所 以 ， 读 写 文件 就 是 请 求 操作 系统 打开 一 个 文件 对 象 〈 通 常 称 为 文件 描述 
符 ) ， 然 后 ， 通 过 操作 系统 提供 的 接口 从 这 个 文件 对 象 中 读 取 数据 〈 读 文件 ) ， 或 者 把 数据 
写 入 这 个 文件 对 象 〈 写 文件 ) 。 


3.4.1 Project 分 析 
Python 使 用 内 置 函 数 open 来 读 写 文件 。 查 看 open 函数 的 帮助 文档 。 执 行 命令 : 


Python3 
help (open) 
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执行 的 结果 如 图 3-4 所 示 。 


Help on built-in function open in module _ builtin : 


lopen(...) 
open(name[, mode[, buffering]]) -» file object 


Open a file using the file() type, returns a file object. This is the 
preferred way to open a file. See file. doc for further information. 


1 [mJ 


图 3-4 help open 


图 3-4 中 的 Name 是 需要 操作 的 文件 名 ，mode 是 模式 。 这 个 模式 共有 7 种 ， 如 表 3-1 所 


表 3-1 Python Open Mode 


模式 说 明 

r 以 读 方式 打开 文件 ， 可 读 取 文件 信息 

w 以 写 方式 打开 文件 ， 可 向 文件 写 入 信息 。 如 文件 存在 ， 则 清空 该 文件 ， 再 写 入 新 内 容 
a 以 追加 模式 打开 文件 ， 如 果 文 件 不 存在 ， 则 创建 

rt 以 读 写 方式 打开 文件 ， 可 对 文件 进行 读 和 写 操作 

wt 消除 文件 内 容 ， 然 后 以 读 写 方式 打开 文件 

at 以 读 写 方式 打开 文件 ， 并 把 文件 指针 移 到 文件 尾 

b 以 二 进 制 模式 打开 文件 ， 而 不 是 以 文本 模式 打开 


这 7 种 模式 可 以 组 合 使 用 。 下 面 将 用 Python 创建 一 个 文件 ， 并 写 入 、 读 取 内 容 。 


3.4.2 Project 实施 
【示例 3-4】 编 写 operaFile.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
Vi operaFile.py 


operaFile.py 的 代码 如 下 : 
1 #!/usr/bin/env python3 


#-*- coding: utf-8 -*- 
__author_ = 'hst king hst_king@hotmail.com' 
import os 


2 
ES 
4 
5 
6 
7 def operaFile(): # 创 建文 件 

8 print(' 创 建 一 个 名 字 为 test .txt 的 文件 ， 并 在 其 中 写 入 Hello Python') 
9 Print(' 先 得 保证 test .txt 不 存在 ') 
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10 os.system('rm test.txt') 


11 os.system('ls -1 test.txt') 

12 ”print (' 现 在 再 来 创建 文件 并 写 入 内 容 \n') 
13 fp = open('test.txt', 'w') 

14 fp.write('Hello Python') 


15 fp.close() 

16 print (' 不 要 忘记 用 close 关闭 文件 哦 ') 

17 print (' 再 来 看 看 test .txt 是 否 存在 ， 和 内 容 \n') 
18 os.system('ls -1 test.txt') 

19 os.system('cat test.txt') 

20 print ('\n') 

21 

22 print (' 如 何 避 免 open 文件 失败 的 问题 呢 ? ") 

23 print (' 使 用 with as 就 可 以 了 ') 


24 with open('test.txt', 'r') as fp: 
25 st = fp.read() 

26 print ('test.txt 的 内 容 为 :%$s' Sst) 
27 

28 if _name_ == '_main_': 


29 operaFile() 
执行 命令 : 
python operaFile.py 


得 到 的 结果 如 图 3-5 所 示 。 


8) king@debian8: ~/code/crawler 一 口 x 


king@debian8:~/code/crawler$ python3 operaFile.py ^ 
创建 一 个 名 字 为 test .txt 的 文件 ， 并 在 其 中 写 入 Hello Python 

先 得 保证 test .txt 不 存在 

rm: 无 法 删除 "test .txt": 没有 那个 文件 或 目录 

ls: 无 法 访问 test.txt: 没有 那个 文件 或 目录 

现在 再 来 创建 文件 并 写 入 内 容 


不 要 忘记 用 cliose 关 闭 文件 哦 
再 来 看 看 test .txt 是 否 存在 ， 和 内 容 


-rw-r--r-- 1 king king 12 1 月 19 15:04 test.txt 
Hello Python 


如 何如 免 open 文 件 失败 的 问题 呢 ? 
使 用 with as 就 可 以 了 

test .txt 的 内 容 为 :Hello Python 
king@debian8:~/code/crawlers JJ 


3-5 Python 读 写 文件 


Python 对 文件 的 操作 跟 C 类 似 ， 但 功能 远 比 C 要 丰富 。 例 如 按 行 读 取 文件 ， 多 行 读 取 文 
件 等 。C 语言 的 优势 是 快 ， 而 Python 的 优势 是 模块 多 、 功 能 


tt 


= 
Ho 
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类 的 继承 与 重 载 


Python 面向 对 象 编程 。 可 以 简单 地 理解 为 Python 对 类 的 使 用 。 基 本 上 与 C++ 或 者 Java 
的 类 相同 ， 没 有 C++ 和 Java 的 类 那么 复杂 ， 但 类 的 继承 、 重 载 等 特性 还 是 有 的 。 


3.5.1 Project 1 分 析 
在 第 2 章 中 展示 了 类 的 最 基本 用 法 ， 需 要 注意 的 是 Python 2 的 类 是 分 为 两 种 ， 一 种 是 经 
典 类 ， 另 一 种 是 新 类 。Python 经 典 类 的 典型 写法 如 下 : 


class ClassicClass: 

'"Python2 中 的 经 典 类 "' 

def init__(self): 
LT 


print("I am X init function for classic class") 
def del (self): 
Brie 
print("I am del function, executes when destroyed instance object") 
新 类 是 继承 于 object 基 类 的 类 新 类 和 经 典 类 的 区 别 就 在 于 是 否 继承 于 object X) 。 
Python 3 的 类 都 是 新 类 。 也 就 是 说 新 类 将 成 为 潮流 方向 ， 所 以 要 尽 可 能 使 用 新 类 。Python 新 
类 的 典型 写法 如 下 : 


class NewStyleClass (object): 


'"Python3 中 的 新 类 "' 
def _init_ (self): 
' "构造 函数 "' 


print("I am _init_ function for new styhle class”) 
def del (self): 
下 析 构 函数 "' 


print("I am del function, executes when destroyed instance object") 


不 管 是 新 类 还 是 经 典 类 ， 其 中 的 _init_ 函 数 是 构造 函数 ， 常 用 于 初始 化 对 象 。_del 


函数 是 析 构 函数 ， 这 个 函数 只 在 对 象 销毁 时 才 会 运行 ， 因 为 Python 的 垃圾 回收 机 制 更 像 
Java， 是 自动 回收 的 。_del _ 作 用 有 限 ， 一 般 很 少 使 用 。 


1. 类 的 继承 
先 来 看 Python BHA) 的 继承 。 使 用 一 个 最 简单 的 类 和 object 类 来 比较 一 下 。 打 开 
Putty， 连 接 到 Linux。 执 行 命令 : 


python3 
class SimpleClass (object): 


pass 
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class SimpleClass2 (SimpleClass): 


pass 
dir (object) 
dir (SimpleClass) 
dir (SimpleClass2) 
As = 
执行 结果 如 图 3-6 所 示 。 
a king@debian8 
Type "help", "copyright", "credits" or "license" for more information. ^ 
>>> class SimpleClass (object): 
pass 
>>> class SimpleClass2(SimpleClass): 
"m pass 
>>> dir(object) 
[' class ', ' delattr ', ' doc ', ' format ', ' getattribute ', has 
F: ", '_init_', ' new ', ' reduce ', '_reduce ex ', '_repr_', ' setat 
r ', '_sizeof_', ' str "', ' subclasshook "'] 
delattr_', ' dict ', ' doc ', ' format ', ' getattribut 
+ ' init ", ' module ", ' new ", ' reduce ", ' reduce qa 
= __', '__setattr_', ' sizeof ", ' str "'", '__subclasshook_', ' 
weakref '] 
>>> 
>>> dir(SimpleClass2) 
[' class ', ' delattr ', ' dict ', ' doc ', ' format ', ' getattribut 
E ', ' hash ", ' init ', '_module_', '_new_', ' reduce ', ' reduce e 
", 72 repro C, '"_setattr_', '_sizeof_', ' str ", ' subclasshook ', ' 
weakref '] 
>>> L v 
图 3-6 类 的 继承 


发 现 继承 object 的 新 类 SimpleClass 与 object 类 的 函数 (方法 ) 基本 是 一 致 的 。 不 一 致 的 
几 处 是 基 类 与 继承 类 的 区 别 。 而 继承 与 SimpleClass 的 新 类 SimpleClass2 与 SimpleClass 的 函 


数 (方法) 是 完全 一 致 的 。 


如 果 有 足够 的 兴趣 ， 可 以 测试 一 下 SimpleClass3 继承 于 SimpleClass2, SimpleClass4 继 


承 于 SimpleClass3…… 


， 一 直到 SimpleClass100。 然 后 用 dir 来 查看 SimpleClass100 


会 发 现 object 包含 的 函数 SimpleClass100 全 部 都 有 。 这 不 是 因为 SimpleClass100 跟 
有 什么 直接 关系 ，SimpleClass100 类 只 跟 它 的 父 类 〈 继 承 的 类 SimpleClass99) 有 关 。 这 种 联 
系 有 点 类 似 于 人 类 基因 。 孩 子 的 基因 总 是 从 父母 遗传 的 ， 只 跟 父母 有 关 。 如 果 究 根 结 底 ， 不 
断 地 上 溯 ， 所 有 人 类 的 基因 都 归结 于 某 一 只 猿 猴 。 在 Python 中 object 类 就 是 那 只 


Ho 


的 函数 ， 
object 类 


最 初 的 猿 


因为 所 有 的 新 类 都 继承 于 《或 者 间接 继承 于 ) object， 所 有 的 新 类 都 具有 相同 的 “ 基 


因 
的 后 续 版 本 Python 3 会 选择 新 类 而 放弃 经 典 类 的 原因 之 一 吧 。 


”。 而 经 典 类 由 于 天 生 的 “缺陷 ”， 不 可 能 有 共同 的 “基因 ”。 也 许 这 也 是 为 什么 Python 
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2. KNBR 

再 来 看 看 函数 的 重 载 。 函 数 的 重 载 很 简单 ， 就 是 继承 于 父 类 的 函数 并 不 适合 当前 需求 。 
那 就 将 这 个 继承 于 父 类 的 函数 重新 写 入 ， 做 成 一 个 符合 需求 的 函数 。 最 常用 的 函数 重 载 就 是 
. init 函数 了 。 每 个 类 都 有 _init 函数， 实例 化 对 象 不 同 ， 每 个 类 的 _init 函数 必定 是 不 
同 的 。 但 这 个 _init 函数 都 是 继承 得 来 的 ， 所 以 每 个 类 (新 类 ) 的 _init 函数 都 被 重 载 
了 。 还 是 以 人 类 为 例 ， 如 果 是 完全 的 继承 ， 没 有 重 载 。 至 今 的 人 类 都 还 是 用 四 脚 走路 。 正 是 
由 于 一 代 又 一 代 不 断 的 重 载 ， 人 类 不 断 地 修改 “类 函数 ”来 更 好 地 适应 环境 ， 才 造成 了 今天 
人 类 既 有 相同 的 共性 ， 又 有 不 同 的 特性 。 


3.5.2 Project 1 实施 


【示例 3-5】 编 写 inheritClass.py， 用 于 演示 新 类 的 继承 。 打 开 Putty 连接 到 Linux， 执 行 
命令 : 


cd code/crawler 


vi inheritClass.py 


inheritClass.py 的 代码 如 下 : 


1 #!/usr/bin/env Python3 
2 i-*-ocodingrutt-B =*= 
3 _author_ = 'hstking hst_kingehotmail.com' 


4 
5 class Ape (object): # 猿 猴 

6 "7 "以 猿 猴 形态 时 ， 手 、 腿 、 眼 睛 的 数量 '' 

7 eyes = 2 # 这 几 个 变量 是 类 保护 变量 ， 是 可 以 “遗传 ”给 子 类 的 。 
8 

9 


arms = 0 
legs = 4 
10 
dE def — init (self): 
12 w doit 函数 一 般 最 主要 的 作用 就 是 初始 化 ，'' 
13 self.name = 'ape' 
14 self.show() 
15 
16 def show (self): 
avy print("I am a %s" %self.name) 
18 print ("I have $d eyes" %self.eyes) 
19 print("I have $d arms" %self.arms) 
20 print("I have $d legs" $self.legs) 
21 print ("###### The show is over #####\r\n") # 这 是 使 用 \r\n 作为 分 段 符 
是 为 了 兼容 Widnows 
22 
23 
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24 class Homohabilis (Ape): # 能 人 
"能 人 还 是 用 4 RER 
def init (self);: 


25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 


self.name 


= 'Homohablilis' 


self.show() 


class Homoerectus (Homohabilis): # 直 立 人 
" 7" 直立 人 用 两 腿 走 路 ， 解 放 了 双手 ttt 


arms 


legs 2 


2 # 这 里 重 载 了 手 和 腿 的 数量 


def init (self): 
self.name 


= 'Homoerectus' 


self.show() 


class Homosapiens (Homoerectus): ##A 
"7 " 智 人 也 是 用 双 腿 走 路 ， 直 立行 走 ' 
def init (self): 
self.name 
self.show() 


if nane == 
ape = Ape() 
homohabilis 
homoerectus 


homosapiens 


在 这 段 代 码 中 ， 以 Ape 
类 。Homohabilis 类 原封 不 动 地 直接 继承 于 Ape 类 ， 得 到 了 Ape 类 的 变量 eyes. arms. legs 
和 一 个 成 员 函 数 show。 

Homoerectus 类 (直立 人 ) 是 Homohabilis 类 的 子 类 。 虽 然 Homoerectus 类 是 Ape 类 的 “ 孙 
HE” , fH Homoerectus 是 跟 Ape 毫 无 关系 的 。Homoerectus 只 跟 它 的 父 类 Homohabilis AX, 
至 于 Homohabilis 的 变量 、 函 数 是 从 继承 得 来 的 还 是 自身 定义 的 都 跟 Homoerectus 无 关 。 

最 后 的 Homosapiens 类 是 Homoerectus 类 的 子 类 。 因 为 Homoerectus 修改 了 arms 和 legs 的 
值 ， 所 以 Homosapiens 也 直接 继承 了 这 个 修改 后 的 值 。 无 须 考虑 “祖先 类 ”是 怎么 设置 的 。 

执行 命令 : 


Python3 inheritClass.py 


执行 结果 如 图 3-7 所 示 。 


= 'Homosapiens' 


main ': 


Homohabilis () 
Homoerectus () 
Homosapiens () 


类 GRIE) TEASER. Homohabilis 类 (能 人 ) 是 Ape 类 的 子 
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a kingGdebian8: ~/code/crawler - n x 


kingédebiang 
I am a ape 

I have 2 eyes 

I have 0 arms 

I have 4 legs 

###884 The show is over dH 


code/crawler$ python3 inheritClass.py ^ 


I s 
I have 4 legs 
#44844 The show is over d 


I am a Homoerectus 
I have 2 eyes 

I have 2 arms 

I have 2 legs 

WM The show is over HH 

I am a Homosapiens 

I have 2 eyes 

I have 2 arms 

I have 2 legs 

WM The show is over tetè v 


图 3-7 Class 继承 


这 种 继承 的 方式 在 小 程序 中 可 能 还 显示 不 出 优势 ， 但 在 大 项 目 中 优势 就 非常 明显 了 。 把 
所 有 具有 共性 的 物品 都 归纳 成 一 个 基 类 。 继 承 基 类 后 ， 然 后 根据 不 同 的 特性 ， 稍 做 修改 就 得 
到 了 合适 的 、 有 特性 的 新 类 ， 减 少 了 工作 量 ， 在 修改 共性 时 也 只 需要 修改 基 类 就 能 影响 所 有 
下 游 的 子 类 ， 非 常 方便 。 


3.5.8 Project 2 分 析 


再 来 看 一 个 常用 的 实例 。 在 做 Python 疏 虫 时 ， 最 常用 的 操作 就 是 向 网 站 服务 器 提出 请 
求 ， 然 后 等 待 服务 器 返回 数据 ， 最 后 才 是 过 滤 有 效 数 据 、 清 洗 数据 、 保 存 数据 。 在 向 服务 器 
提出 请 求 这 一 过 程 中 ，Python 需要 向 服务 器 发 送 http header。http header 中 最 重要 的 就 是 
User-Agent 和 cookies 了 (也 有 不 需要 提供 User-Agent 的 网 站 ， 但 网 络 爬 虫 日 益 横行 ， 连 最 
基本 的 反 疏 虫 手 段 都 不 用 的 网 站 已 经 很 少 了 ) 。 待 服务 器 返回 数据 后 ， 再 将 数据 处 理 后 交 给 
bs4、re…… 模 块 过 滤 所 需 的 信息 。 

这 时 麻烦 出 现 了 。 服 务 器 返回 的 字符 编码 并 不 是 统一 的 。 疏 虫 在 朴 中 文 网 站 时 ， 最 麻烦 
的 就 是 字符 编码 问题 了 。 中 文字 符 编 码 最 常见 的 要 数 utf-8 和 gbk 了 。 至 于 这 两 种 字符 编码 的 
由 来 和 历史 这 里 就 不 做 普及 了 。 一 般 来 说 ， 国 内 建站 比较 早 的 网 站 有 部 分 还 在 使 用 gbk 的 编 
码 (虽然 目前 utf-8 的 编码 更 加 普及 ， 也 许 是 老 网 站 为 了 传统 问题 都 没有 转换 过 来 ) ， 而 新 建 
站 点 差不多 都 是 utf-8 的 编码 了 ， 也 有 港 台 特 有 编码 big5 的 。 

这 么 常用 的 处 理 ， 按 照 惯例 当然 是 要 做 成 函数 或 者 类 ， 便 于 多 次 调用 ， 但 在 执行 这 一 过 
程 中 ， 既 有 相同 的 共性 〈 主 要 过 程 相同 ， 都 是 请 求 url， 返 回 html 代码 ， 然 后 处 理 ) ， 也 有 
各 自 的 特性 (不 同 的 User-Agent. cookies 和 字符 编码 处 理 ) 。 写 成 函数 ， 不 是 不 可 以 ， 但 这 
个 函数 就 需要 带 上 多 个 参数 ， 而 用 类 可 能 会 更 方便 一 些 。 

常见 的 方法 是 先 编写 一 个 基 类 ， 将 基本 步骤 都 包含 进去 〈 基 类 将 共性 和 某 一 特性 就 包含 
HEAT) 。 如 果 在 使 用 时 ， 有 不 同 的 特性 〈 比 如 需要 带 指定 的 User-Agent， 或 特定 的 字符 编 
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码 ) 。 那 就 重新 设计 一 个 新 类 ， 继 承 于 基 类 。 然 后 根据 自己 所 需 的 特性 ， 将 基 类 的 某 些 函数 
或 变量 重 载 。 这 样 使 用 类 ， 既 减少 了 工作 量 ， 又 能 灵活 运用 于 不 同 的 场景 。 


3.5.4 Project 2 实施 

为 什么 一 定 要 设置 User-Agent 呢 ? 

据说 目前 访问 网 站 的 网 络 流量 中 有 60%~70% 都 是 网 络 爬 虫 提 供 的 。 网 站 当然 更 欢迎 真实 
人 类 的 访问 流量 。 因 此 采取 种 种 方法 来 拒绝 网 络 疏 虫 的 访问 ， 这 也 就 是 所 谓 的 反 疏 虫 了 。 而 
最 简单 的 反 怜 虫 莫 过 于 检查 发 送 请 求 方 http header 中 的 User-Agent 了 。 如 果 Python 没有 设置 
User-Agent， 默 认 情况 下 http header 的 User-Agent 就 是 Python。 显 然 这 样 是 无 法 通过 网 站 检 
查 的 ， 布 置 了 反 有 疏 虫 的 服务 器 也 不 会 为 这 种 网 络 请 求 提供 服务 。 因 此 必须 为 Python 提供 虚假 
的 User-Agent 以 欺骗 服务 器 ， 让 服务 器 误 认 为 请 求 来 源 是 浏览 器 。 

不 同 的 浏览 器 提供 的 User-Agent 是 不 同 的 。 如 果 要 一 一 列 数 篇 幅 会 非常 大 ， 这 里 就 列 出 
最 典型 的 几 种 。 因 为 User-Agent 是 可 以 被 很 多 程序 反复 利用 的 ， 将 User-Agent 放 入 主 程序 似 
乎 也 不 太 合适 ， 所 以 将 User-Agent 放 入 一 个 新 的 Python 文件 ， 以 备 其 他 Python 程序 调用 。 

【示例 3-6】 编 写 resource.py。 将 常用 的 资源 放 入 该 文件 中 ， 便 于 其 他 的 Python 程序 调 
用 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 


vi resource.py 


resource.py 的 代码 如 下 : 


1 #!/usr/bin/env Python3 
2 4-*—) coding:ubf-8 =*= 


3 author = 'hstking hst_king@hotmail.com' 
4 
5 
6 userAgentList - [ 
7 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like 
Gecko) Chrome/39.0.2171.71 Safari/537.36', #Chrome 
8 "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like 
Gecko) Chrome/23.0.1271.64 Safari/537.11', #Chrome 
9 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 
(KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16', #Chrome 
10 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, 
like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60', #Opera 
11 'Opera/8.0 (Windows NT 5.1; U; en)',#Opera 
12 "Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 
Firefox/2.0.0 Opera 9.50',40pera 
13 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 
9.50', #Opera 
14 "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100102 
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Firefox/34.0',#Firefox for Windows 

15 'Mozilla/5.0 (X11; U; Linux x86 64; zh-CN; rv:1.9.2.10) 
Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10',#Firefox for Linux 

16 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, 
like Gecko) Version/5.1.7 Safari/534.57.2 ',#Safari 

17 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, 
like Gecko) Chrome/30.0.1599.101 Safari/537.36', #360 

18 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like 
Gecko'#360 

19 "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, 
like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11',#Taobao 

20 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like 
Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER', $285] 38 

21 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; 
Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; 
Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER) ', #385901 Was 


22 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 
732; .NET4.0C; .NET4.0E; LBBROWSER) ', #785030 Via 
23 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; 


Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; 
Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)',#Q0Q 


24 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 
732; .NET4.0C; .NET4.0E)', #QQ 

25 'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) 
Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0',#Sogou 

26 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; 
SV1; QQDownload 732; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0) ',#Sogou 

27 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, 
like Gecko) Maxthon/4.4.3.4000 Chrome/30.0.1599.101 Safari/537.36',#Maxthon 

28 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, 
like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36'#UC 

291] 

30 

31 mobileUserAgentList = [ 

32 'Mozilla/5.0 (iPhone; U; CPU iPhone OS 4 3 3 like Mac OS X; en-us) 


AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 
Safari/6533.18.5',#Iphone 

33 "Mozilla/5.0 (iPod; U; CPU iPhone OS 4 3 3 like Mac OS X; en-us) 
AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 
Safari/6533.18.5',#Ipod 

34 'Mozilla/5.0 (iPad; U; CPU OS 4 2 1 like Mac OS X; zh-cn) 
AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 
Safari/6533.18.5',#Ipad 
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35 'Mozilla/5.0 (iPad; U; CPU OS 4 3 3 like Mac OS X; en-us) 
AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 
Safari/6533.18.5',#Ipad 

36 'Mozilla/5.0 (Linux; U; Android 2.2.1; zh-cn; HTC Wildfire A3333 
Build/FRG83D) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile 
Safari/533.1"', #Android 

37 "Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; Nexus One Build/FRF91) 
AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile 
Safari/533.1',#Android 

38 'MoOBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 
Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 
Mobile Safari/533.1',#QQ for Android 


39 'Opera/9.80 (Android 2.3.4; Linux; Opera Mobi/build-1107180945; U; 
en-GB) Presto/2.8.149 Version/11.10',f£Opera for android 
40 'Mozilla/5.0 (Linux; U; Android 3.0; en-us; Xoom Build/HRI39) 


AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13',#Android Pad 
Moto Xoom 

41 'Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; en) 
AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile 
Safari/534.1+', #BlackBerry 


42 'Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; 
Trident/5.0; IEMobile/9.0; HTC; Titan)'4Windows Phone Mango 
43 ] 


a 这 里 不 仅 提供 了 常用 PC 端 浏览 器 的 User-Agent， 也 提供 了 移动 端 浏览 器 的 User-Agent. 
这 是 因为 使 用 PC 端 访问 网 站 和 使 用 移动 端 访问 网 站 可 能 得 到 的 结果 会 不 同 。 或 者 直接 
点 说 ， 有 些 网 站 会 为 移动 端 和 PC 端 提供 不 同 的 服务 。PC 端的 反扑 虫 会 做 得 更 用 心 一 
些 ， 而 移动 端 提供 的 服务 则 很 少 做 反扑 虫 处 理 。 


一 般 来 说 ， 调 用 同一 目录 下 的 Python 程序 是 无 须 任何 处 理 就 可 以 直接 调用 的 ， 比 如 调用 
resource.py 中 的 userAgentList。 如 果 调 用 的 Python 文件 与 resource 处 在 同一 目录 下 ， 直 接 在 
文件 头 添 加 一 行 from resource import userAgentList 就 可 以 了 。 但 有 些 IDE 要 求 比 较 严 格 ， 必 
须 在 该 目录 下 添加 一 个 名 字 为 _init_.py 的 空 文件 (这 个 文件 里 什么 都 没有 ) ， 意 思 是 将 该 
目录 初始 化 为 Python 的 包 。 以 后 就 可 以 根据 包 名 (也 就 是 目录 名 ) 来 调用 包 (目录 〉 内 文件 
的 函数 、 类 、 变 量 了 。 没 有 这 个 _init .py 文件 也 许 没有 什么 影响 ， 但 有 一 个 显然 更 加 安 
全 。 所 以 使 用 Putty 连接 到 Linux 后 ， 执 行 命令 : 


cd code/crawler 


touch _ init__.py 
Is =I  dnit .py 
cat — init -py 
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执行 结果 如 图 3-8 所 示 。 


king@debian8: ~/code/crawler 一 口 x 


iking@debian$:~$|cd code/crawler 
|king@debian' /code/crawler$ [touch init .PY 
king@debian$:~/code/crawler$ |ls -1 init .py 
l-rw-r--r-- 1 king king 0 108 11 23:09 init .py 
king6debian8:-/code/crawler$ cat _ init .py 
lcing8debian8:-/code/crawler$S 


图 3-8 创建 _init .py 文件 


现在 Python 可 以 认为 crawler 目录 是 一 个 Python package 了 。 如 果 再 把 crawler 目录 路 径 
加 入 到 PYTHONPATH， 那 么 Python 就 可 以 在 任何 位 置 通过 import crawler.resource 语句 
| 来 调用 resource.py 内 的 资源 了 。 


【示例 3-7】 所 有 的 准备 工作 已 经 完毕 。 下 面 创建 connWeb.py， 先 创建 一 个 基 类 用 于 访问 
一 般 的 utf-8 编码 的 网 站 ， 然 后 定义 一 个 新 类 ， 继 承重 载 基 类 ， 用 于 连接 特定 字符 编码 。 打 开 
Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
vi connWeb.py 


connWeb.py 的 代码 如 下 : 


1 #!/usr/bin/env Python3 

2 $-*- coding;utf-8 -*- 

3 author = 'hstking hst_king@hotmail.com' 

4 

5 from resource import userAgentList 

6 import random 

7 import urllib.request 

8 import codecs 

9 

10 class ConnBase (object): 

11 '''! 这 是 一 个 用 于 返回 htm 源 代码 的 类 ''' 

12 accept = 
"text/html, application/xhtml+xml, application/xml;q=0.9,image/webp, image/apng, * 
/*;q=0.8" 

13 accept language = 'en-US,en;q-0.8,zh-CN;q-0.6,zh;q-0.4,zh-TW;q-0.2' 

14 user agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) 


AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 
Safari/537.36', #Chrome 
T5 charset = 'utf-8' # 一 般 来 说 网 页 使 用 的 都 是 utf-8 码 
16 headers = { 
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aig "Accept': accept, 


18 'Accept-Language': accept language, 

19 'User-Agent': user agent 

20 } 

21 timeout = 10 

22 

23 def init (self, url): 

24 self.url = url 

25 self.result = self.getResponse() 

26 self.save2file() 

27 

28 def getResponse(self, proxy={}): 

29 proxy_handler = urllib.request.ProxyHandler (proxy) 

30 opener = urllib.request.build_opener (proxy handler) 

p 

32 opener .headers = self.headers 

33 urllib.request.install_opener (opener) 

34 trys 

35 req = urllib.request.Request (self.url) 

36 response = urllib.request.urlopen(req, timeout=self.timeout) 

37 result = response.read() .decode(self.charset, 'ignore') 

38 except Exception as e: 

39 print (e) 

40 return None 

41 else: 

42 return result 

43 

44 def save2file(self): 

45 with codecs.open(self.charset + '.txt', 'w', 'utf-8') as fp: 

46 fp.write(self.result) 

47 

48 

49 class GetHtmlCode (ConnBase) : 

50 ''" 继承 于 ConnBase 基 类 ， 重 载 了 charset 变量 ， 用 于 连接 字符 集 为 gbk 的 网 站 。' 

51 def _init_ (self, url): 

52 self.url = url 

DS self.user_agent = random.choice(userAgentList) # 这 里 将 从 useragent 
列表 中 随机 挑选 User-Agent， 避 免 反 息 虫 干扰 

54 self.charset = 'gbk' # 对 应 某 些 中 文 网 站 的 字符 编码 ， 如 果 是 繁体 中 文 ， 一 般 是 
Gig5 

55 

56 self.result = self.getResponse() 

5l self.save2file() 
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59 

60 if name _ == main a 

61 resl = ConnBase('http://www.linuxdiyf.com') 

62 res2 = GetHtmlCode ('http://www.linuxdiyf.com') 


暂时 不 执行 程序 ， 先 分 析 一 下 本 程序 。 

首先 是 程序 第 5 行 的 from resource import userAgentList. 。 因 为 本 程序 需要 用 到 
resource.py 中 的 userAgentList 变量 ， 而 resource.py 与 本 程序 是 处 于 同一 目录 下 的 ， 所 以 可 以 
直接 用 from resource import userAgentList 将 userAgentList 变量 导入 本 程序 中 来 。 

再 看 程序 第 49 行 的 GetHtmlCode 类 。 在 这 个 类 中 并 没有 定义 任何 的 类 函数 ， 但 因为 
GetHtmlCode 类 是 继承 于 ConnBase 类 的 ， 所 以 ConnBase 有 的 函数 GetHtmlCode 也 有 【除了 
init 函数 以 外 ) ，ConnBase 有 的 类 变量 ，GetHtmlCode 同样 也 有 ， 这 也 是 继承 的 意义 。 
而 在 程序 第 53、54 行 ，GetHtmlCode 重 载 了 ConnBase 的 两 个 类 变量 ， 这 个 有 点 类 似 于 C 语 
言 的 全 局 变量 和 局 部 变量 ， 也 就 是 变量 同名 时 ， 局 部 变量 覆盖 了 全 局 变量 。 在 程序 的 53. 54 
行 也 是 如 此 。GetHtmlCode 中 有 与 ConnBase 同名 的 变量 ， 因 此 GetHtmlCode 内 定义 的 变量 
将 覆盖 父 类 的 变量 ， 这 也 就 是 所 谓 的 重 载 。 在 类 中 不 但 可 以 重 载 变量 ， 还 可 以 重 载 函数 。 

在 运行 程序 前 先 看 一 下 测试 网 站 的 字符 编码 ， 在 浏览 器 中 打开 测试 用 网 站 
http://www.linuxdiyf.com。 查 看 字符 编码 ， 如 图 3-9 所 示 。 


国 ainue -Lr x y GB view-sourcewww.linus x 


Q | © view-source: ep * 


2| <html xmlns="http: / /wwr. w3. org/ 1999/xhtnl"» 

3| <head> 

4| meta http-equiv-"Content-Type" content-"text/htnl;| charset-gb2312" 
5 

6 


I 


Etatley 红 联 Linux 门 户 - 专注 Limnx 系 统 教程 的 网 站 ， Lime ee Ett] 
= name=" keywords” content=" linux, linux, Imm 教程 , limo » linux #5), Lim SA 
/> 
7 <meta nane=“description”content=“ 红 联 Limx 系 统 门 户 ， 专 注 Linux 系 统 教程 的 网 站 ， arabe 
教程 ， dt 帮助 用 户 更 好 的 学 习 Linux。 红 联 ， 做 中 国人 Linux 网 上 家园 。“ 
8| <link href=" wv. templets/def ault/styl 
rel=’ des medis-"screen" types "text/css" /> 
9 <script language="javascript” type=“text/ javascript” 
src=’ “http://www, 1inuxdiyt. con/Linux/images/is/i. is" ></script> 
10| <script language="javascript” type="text/ javascript” 
src=” http://www. linuxdivyf. com/1inux/tenplets/default/js/pic scroll. is”></script> 
11| <script type="text/ javascript” src-"http: //cb js. baidu. com/is/m is"? script? 
12| </head> 
13| <body class=" index” > 
14| <div class="header_top”> 
15| <div class="w960 center"? <span id="time” class="time”>3¢Linux - 上 红 联 ! </span> 
16 <div class=“toplinks” ><a href="http://www. Linuxdiyf.com/” target="_blank” 4 Linx ]A ~ 


图 3-9 测试 用 网 站 源码 
从 中 可 以 看 出 测试 用 网 站 使 用 的 字符 编码 是 gb2312， 这 也 是 为 什么 在 程序 中 要 将 
GetHtmlCode 类 中 的 self charset 重 载 为 gbk 的 缘故 (gb2312 字符 集 是 gbk 字符 集 的 子 集 ) 。 
下 面 开始 执行 程序 ， 执 行 命令 : 


python connWeb.py 
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Us: =1 C txt 
grep «title»! *.txzt 


执行 结果 如 图 3-10 所 示 。 


i) king@debian8: ~/code/crawler 一 口 x 


king@debian8:~/code/crawler$ python3 connWeb.py ^ 
king@debian8:~/code/crawler$ is -1 *.txt 

-rw-r--r-- 1 king king 37573 1H 19 15:22 gbk.txt 

-rw-r--r-- 1 king king 31241 1 月 19 15:22 utf-B.txt 

king@debian8:~/code/crawler$ grep '«titie»' *.t 

gbk.txt:<title> 红 联 Linux 门 户 等 汗 Linux 系 统 教程 的 网 站 </title> 
lutf-B8.txt:«title»Linuxá ynLinuxeTy</title> 

king@debian8:~/code/crawler$ 


图 3-10 保存 结果 到 文件 


图 3-10 中 utf-8.txt 是 基 类 ConnBase 类 生成 的 ，gtk.txt 是 由 子 类 GetHtmlCode 生成 的 。 
使 用 grep 命令 比较 一 下 文件 内 容 〈 这 里 不 需要 比较 全 文 ， 只 需要 比较 一 下 title 就 足够 说 明 问 
WY) 。gtk.txt 因为 使 用 的 是 与 网 站 字符 相同 的 编码 ， 所 以 得 到 了 正常 可 见 的 中 文字 符 。 而 
utf-8.txt 使 用 的 是 默认 的 utf-8 编码 ， 与 网 站 默认 的 字符 编码 不 符 ， 所 以 得 到 的 是 乱码 。 


J e le 多 线程 


不 管 哪 种 编程 语言 ， 多 线程 都 是 必 不 可 少 的 。 这 种 提高 工作 效率 的 神器 ， 怎 么 重视 都 不 
过 分 。 多 线程 ， 就 是 将 多 个 线性 顺序 执行 的 过 程 变 成 并 行 运行 。 并 行 的 数量 越 多 ， 效 率 就 越 
高 。 如 果 需 要 放空 一 个 水 池 的 水 ， 打 开 多 个 放水 孔 的 效率 显然 要 比 打 开 一 个 放水 孔 的 效率 
高 。 这 种 做 法 是 典型 的 以 资源 换 时 间 。 


3.6.1 Project 1 分 析 
首先 设计 一 个 简单 的 程序 threadingOrderRun.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
vi threadingOrderRun.py 


threadingOrderRun.py 的 代码 如 下 : 


#!/usr/bin/env python3 
#-*- coding:utf-8 -*- 
. author  - 'hstking hst_king@hotmail.com' 


1 
2 
3 
4 
5 import time 
6 
7 def showName (name) : 
8 


nowTime = time.strftime('$H:$M:$S', time.localtime (time.time())) 
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9 print('My name is function-$s, now time: %s ' %(name, nowTime) ) 


10 time.sleep(1) 

11 

12 

13 if name -—- ' main -': 

14 for i in range(20): # 没 有 开 多 线程 的 情况 下 ， 执 行 20 次 操作 
15 showName (i) 


这 个 函数 的 功能 很 简单 ， 就 是 从 列表 中 提取 名 字 作 为 showName 的 参数 ， 然 后 显示 名 字 
和 当前 时 间 。 最 后 的 time.sleep(1) 是 因为 这 个 过 程 太 快 了 ， 所 以 休眠 1 秒 以 便于 观察 。 这 是 一 
种 理所当然 的 顺序 操作 方法 ， 但 理所当然 的 操作 并 不 是 最 有 效率 的 操作 。 这 种 方法 完全 就 是 
线性 操作 ， 从 列表 中 取出 一 个 元 素 ， 就 用 函数 处 理 一 个 元 素 。 现 在 运行 程序 试 试 ， 执 行 命 
a: 


time python threadingOrderRun.py 
执行 结果 如 图 3-11 所 示 。 


EP king@debian8: ~/code/crawler - n x 


king@debian8:~/code/crawler$ time python3 threadingOrderRun.py ^ 
My name is function-0, now time: 
|My name is function-1l, now time: 
My name is function-2, now time: 
IMy name is function-3, now time: 
IMy name is function-4, now time: 
IMy name is function-5, now time: 
IMy name is function-6, now time: 
My name is function-7, now time: 
IMy name is function-8, now time: 
My name is function-9, now time: 
My name is function-10, now time: 
IMy name is function-11, now time: 
My name is function-12, now time: 
My name is function-13, now time: 
My name is function-14, now time: 
My name is function-15, now time: 
IMy name is function-16, now time: 
IMy name is function-17, now time: 
IMy name is function-18, now time: 
IMy name is function-19, now time: 


5:27:40 


real 0m20.070s 
user 0m0. 032s v 


3-11 线性 顺序 执行 


| time 命令 是 Linux 特有 的 命令 ， 只 能 在 Linux 下 执行 。Windows 下 执行 时 可 以 查看 打印 | 
| 出 的 时 间 。 


从 图 3-11 中 可 以 看 出 ， 该 程序 执行 时 间 为 20.070 秒 。 如 果 列 表 比 较 小 ， 那 还 可 以 忍 
受 。 如 果 这 个 列表 比较 大 呢 ? 1000 个 元 素 至 少 得 1000 秒 ， 那 就 完全 无 法 接受 了 。 明 明 计算 
机 有 多 余 的 资源 ， 却 花费 了 这 么 多 的 时 间 。 完 全 可 以 利用 资源 来 换取 时 间 ， 用 多 线程 操作 。 
在 同一 时 间 内 运行 多 个 线程 (事实 上 线程 并 不 是 同时 运行 的 ， 是 基于 时 间 片 轮转 的 方式 执 
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行 。 但 对 于 操作 者 来 说 ， 跟 同时 运行 并 没有 什么 区 别 ) 。 这 样 虽 然 占用 了 一 定 的 资源 ， 但 大 
大 地 节省 了 时 间 。 毕 竟 绝 大 多 数 的 情况 下 都 是 希望 时 间 优 先 的 。 


3.6.2 Project 1 实施 

在 Python 中 ， 多 线程 的 模块 是 threading 模块 。 如 果 要 完全 深入 了 解 threading BUR, 28 
怕 得 好 好 地 读 一 下 Python 的 说 明文 档 。 如 果 只 是 要 使 用 ， 那 就 很 简单 了 。 这 里 需要 注意 的 
是 ， 使 用 threading 模块 进行 多 线程 操作 有 两 种 方法 。 一 种 是 以 函数 的 形式 调用 ， 一 种 是 以 类 
的 方式 调用 。 

先 以 函数 的 形式 使 用 多 线程 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 


vi threadingOfFunction.py 


threadingOfFunction.py 的 代码 如 下 : 


#!/usr/bin/env python3 
janie coding:utf=9 =*= 
. author = 'hstking hst_king@hotmail.com' 


import threading 


i 

2 

3 

4 

5 import time 
6 

7 

8 def showName(threadNum ,name) : 
9 


nowTime = time.strftime('$H:$M:$S', time.localtime (time.time())) 


10 print('I am thread-$d ,My name is function-$s, now time: $s ' 
%(threadNum, name, nowTime)) 

11 time.sleep(1) 

12 

13 if name  -- ' main ': 

14 print('I am main ...') 

1 names = range (20) 


16 threadNum = 1 #threadNum 指 的 是 线程 执行 的 批 次 。 
17 threadPool = [] # 线 程 池 


18 while names: 

19 for i in range(6): 

20 try: # 这 里 需要 考虑 列表 已 经 读 取 完 毕 的 情况 

21 name = names.pop() 

22 except IndexError as e: 

23 print('The list is empty') 

24 break 

25 else: 

26 t - threading.Thread(target-showName, args-(i, name, )) 
27 threadPool.append(t) 
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28 t.start() 


29 while threadPool: # 也 可 以 用 for 循环 ， 然 后 清空 threadPool 线程 池 

30 t = threadPool.pop() 

51 t.join() HEH join 是 为 了 阻塞 主 函数 ， 意 思 是 必须 将 c 这 个 函数 执行 完毕 后 
才能 继续 执行 主 函数 

32 threadNum += 工 

33 EDEN \r\n') 

34 print('main is over ...") 


以 函数 的 形式 使 用 多 线程 ， 就 是 用 threading. Thread(target=functionName, args=(arguments,)) 的 
方法 代入 需要 进行 多 线程 操作 的 函数 和 函数 所 需 的 参数 (如 果 没 有 参数 更 好 ) 。 


d 如 果 代入 的 函数 有 一 个 参数 ， 那 么 args 要 写成 args=(argl, )。 如 果 有 两 个 参数 ， 那 么 args 
就 要 写成 args-(argl, arg2, )。 总 之 在 参数 元 组 的 最 后 要 留 出 一 个 空位 。 
在 程序 的 第 29-31 行 ， 使 用 了 join 函数 是 为 了 阻塞 主 函数 ， 意 思 是 主线 程 必须 等 待 多 线 
程 执 行 完 毕 后 才能 正常 结束 。 其 实 这 里 也 可 以 不 用 join 函数 ， 多 线程 的 daemon 属性 默 
认 是 false。 这 种 情况 下 主线 程 本 来 就 是 要 等 待 多 线程 执行 完毕 才 会 结束 的 。Join 函数 更 
多 的 是 用 在 多 进程 。 


执行 程序 ， 运 行 命令 : 
time python3 threadingOfFunction.py 
执行 结果 如 图 3-12 所 示 。 


a king@debian8: ~/code/crawler - Dn x 


I am thread-3 ,My name is function-lé, now time: 
I am thread-4 ,My name is function-15, now time: 
I am thread-5 ,My name is function-14, now time: 
I am thread-O ,My name is function-13, now time: 
I am thread-1 ,My name is function-12, 
I am thread-2 ,My name is function-11, 
I am thread-3 ,My name is function-10, 
I am thread-4 ,My name is function-9, 
I am thread-5 ,My name is function-8, 
I am thread-0 ,My name is function-7, 
I am thread-l ,My name is function-6, 
I am thread-2 ,My name is function-5, 
I am thread-3 ,My name is function-4, 
I am thread-4 ,My name is function-3, 
I am thread-5 ,My name is function-2, 
I am thread-0 ,My name is function-1, 
The list is empty 

I am thread-1 ,My name is function-0, now time: 12:09:34 
main is over ... 


eal 0m4.022s 
user 0m0. 008s 
sys 0m0. 004s 
king@debian8:~/code/crawlers fj v 


3-12 ”函数 式 多 线程 


从 图 3-12 可 以 看 出 ， 这 次 操作 只 花费 了 4.002 秒 。 与 顺序 操作 的 20.045 秒 相 比 节约 了 一 大 
半 的 时 间 。 在 计算 机 可 以 承受 的 范围 内 ， 调 大 线程 的 数量 ， 还 可 以 将 运行 时 间 进 一 步 缩短 。 
以 类 的 方式 使 用 多 线程 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 
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cd code/crawler 
vi threadingOfClass.py 


threadingOfClass.py 的 代码 如 下 : 


1 #!/usr/bin/env Python3 

2 #-*= ‘coding: utE=8 -*= 

3 author = 'hstking hst_king@hotmail.com' 

4 

5 import time 

6 import threading 

1 

8 class ShowName (threading.Thread): # 这 里 的 类 名 要 大 写 ， 该 类 继承 于 


threading.Thread 类 
9 def _ init (self, threadNum ,name): 

10 threading.Thread. init (self) # 这 一 步 是 必 不 可 少 的 

self.name = name 

12 self.threadNum = threadNum 

13 

14 def run(self): 

t5 nowTime = time.strftime('$H:$M:$S', time.localtime(time.time())) 

16 print ('I am thread-$d ,My name is function-%s, now time: $s ' 
%(self.threadNum, self.name, nowTime) ) 

17 time.sleep (1) 

18 

19 if name  -- ' main ': 

20 print('I am main ...') 

21 names = [x for x in range(20)] 

22 threadNum - 1 

23 threadPool - [] 

24 while names: 

25 for i in range(6): 

26 try: # 考 虑 线程 已 经 读 取 完 毕 的 情况 

27 name = names.pop() 

28 except IndexError as e: 

29 print('The List is empty') 

30 break 

31 else: 

32 t = ShowName(i, name) # 这 里 调用 ShowName 几乎 与 直接 调用 
threading.Thread 是 一 样 的 。 

33 threadPool .append (t) 

34 t.start() 

B5 while threadPool: 

36 t = threadPool.pop() 
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37 t.join() 


38 threadNum += 1 
39 print (= 
40 print('main is over ... 


执行 程序 ， 运 行 命令 : 
time python3 threadingOfClass.py 
执行 结果 如 图 3-13 所 示 。 


EP kingGdebian8: ~/code/crawler 一 口 x 


I am thread-1 ,My name is function-15, 
I am thread-l ,My name is function-14, 
I am thread-1 ,My name is function-14, 
I am thread-2 ,My name is function-12, 
I am thread-2 ,My name is function-11, 
I am thread-2 ,My name is function-10, 


I am thread-2 ,My name is function-9, 
I am thread-2 ,My name is function-8, 
I am thread-2 ,My name is function-s, 
I am thread-3 ,My name is function-6, 
I am thread-3 ,My name is function-5, 
I am thread-3 ,My name is function-4, 
I am thread-3 ,My name is function-3, 
I am thread-3 ,My name is function 
I am thread-3 ,My name is function-2, 
I am thread-4 ,My name is function-0, 
[The List is empty 

I am thread-4 ,My name is function-0, now time: 12:25:42 
main is over ... 


keal Om4.019s 
user 0m0. 008s 


sys 0m0. 000s 
king@debian8:~/code/crawlers fj v 


图 3-13 类 式 多 线程 


从 图 3-13 中 可 以 看 到 ，threadingOfClass.py 的 运行 时 间 是 4.019 秒 ， 跟 threadingOfFunction.py 
的 4.002 相当 接近 ， 说 明 这 两 种 方法 从 效率 上 来 说 没有 什么 区 别 ， 任 选 一 种 使 用 都 可 以 。 


这 两 种 方法 都 是 对 类 的 调用 。 所 谓 函 数 式 的 调用 是 对 threading.Thread 类 的 直接 调用 ， 而 
| 类 式 的 调用 则 是 先 继承 threading.Thread 类 ， 重 载 子 类 的 函数 后 再 调用 子 类 的 方式 调用 ， 
只 是 前 者 看 起 来 更 像 函 数 调用 而 已 。 


3.6.3 Project 2 分 析 

多 线程 的 好 处 在 于 可 以 并 行 运行 重复 性 的 工作 ， 大 大 地 减少 了 运行 时 间 ， 但 使 用 多 线程 
也 难免 会 忙中 出 错 。 例如， 重复 地 往 一 个 文件 内 写 入 单行 内 容 。 如 果 单 线程 的 线性 执行 ， 很 
难 出 错 。 如 果 多 线程 执行 时 那 就 不 一 定 了 。 当 多 个 线程 同时 向 文件 内 写 入 内 容 时 ， 会 不 会 造 
成 一 个 线程 写 入 成 功 、 其 他 的 线程 都 做 了 无 用 功 呢 ? 不 妨 测 试 一 下 。 

打开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
vi threadingWithoutLock.py 


112 


threadingWithoutLock.py 的 代码 如 下 : 


#!/usr/bin/env python3 
#-*- coding:utf-8 -*- 
_author = 


import time 
import threading 
import codecs 


COAMAONP 


def showName (threadNum ,name): 


10 with codecs.open('test.txt', 'a', 


'hstking hst_king@hotmail.com' 


"utf=8") as fp: 


11 nowTime = time.strftime('%H:%M:%S', time.localtime(time.time())) 
12 fp.write('I am thread-%d ,My name is function-%s, now time: 


' $(threadNum, name, nowTime) ) 


13 print('I am thread-%d ,My name is function-%s, now time: %s ' 


%(threadNum, name, nowTime) ) 
14 time.sleep (1) 


15 

16 

17 if name == ' main "': 

18 with codecs.open('test.txt', 'w', 
19 fp.write('') 

20 print('I am main ...') 

21 names - [x for x in range(100)] 


22 threadNum = 1 
23 threadPool = [] 


"atf=8') as fp; 


24 while names: 

25 for i in range(13): 

26 IE YT 

27 name = names.pop() 

28 except IndexError as e: 

29 print('The list is empty') 
30 break 

31 else: 

32 t = threading.Thread(target=showName, args=(i, name, )) 
33 threadPool .append (t) 

34 t.start() 

35 while threadPool: 

36 t = threadPool.pop() 

37 t.join() 

38 threadNum += 1 

39 print('main is over ...') 


这 个 程序 与 之 前 的 多 线程 程序 基本 上 没什么 区 别 ， 


只 是 增加 了 总 共 线程 的 数量 〈100 


个 ) ， 并 将 输出 写 入 了 一 个 文件 中 。 当 执行 的 总 线程 比较 少 ， 同 时 执行 的 线程 也 不 多 的 情况 
下 也 许 不 会 出 现 问题 。 一 旦 数量 上 去 了 ， 问 题 就 比较 突出 了 。 理 论 上 names 列表 有 100 个 元 


素 ， 那 么 就 应 该 有 100 行 字符 串 写 入 到 了 testtxt 文本 中 。 
执行 程序 测试 一 下 。 运 行 命令 : 
python3 threadingWithoutLock.py 


ls -1 test.txt 
wc -1 test.txt 
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执行 结果 如 图 3-14 所 示 。 


@P king@debian8: ~/code/crawler 一 口 X 


thread-5 ,My name is function-16, now time: 00:14:12 ^ 
thread-6 ,My name is function-15, now time: 00:14:12 

thread-7 ,My name is function-14, now time: 00:14:12 

thread-8 ,My name is function-13, now 
thread-9 ,My name is function-12, now 
thread-10 ,My name is function-11, now time: 00:14:12 
thread-1l ,My name is function-10, now time: 00:14:12 
thread-12 ,My name is function-9, now time: 00:14:12 
thread-0 ,My name is function-8, now 
thread-1 ,My name is function-7, now 
thread-2 ,My name is function-6, now 
thread-3 ,My name is function-5, now 
thread-4 ,My name is function-4, now 
thread-5 ,My name is function-3, now 
thread-6 ,My name is function-2, now 
thread-7 ,My name is function-1, now time 
[Ihe list is empty 

[I am thread-8 ,My name is function-0, now time: 00:14:13 
main is over ... 

king@debian$:~/code/crawler$ 1s -1 test.txt 

i-rw-r--r-- 1 king king 6011 108 19 00:14 test.txt 
ees /oder we -1 test.txt 

00 test.txt 

king@debiané :~/code/crawiers If v 


图 3-14 Linux 下 未 使 用 线程 锁 的 多 线程 


可 以 看 出 在 Linux 下 还 是 正常 的 结果 。 现 在 将 这 个 程序 复制 到 Windows 下 执行 ， 执 行 结 
3-15 所 示 。 


FRRRRRRRRRRRRRRR 
曲名 名 名 名 名 名 外 名 外包 名 名 名 名 名 


00:14:13 


thread-4 ,My name is function-30, now time: 00:08:51 


es thread-9 ,My name is function-25, now time: 00:08:51 
66 thread-8 ,My name is function-26, now time: 00:08:51 
67 thread-11 ,My name is function-23, now time: 0 
E thread-7 ,My name is function-27, now time: 00:08:51 
ga thread-11 ,My d| °° thread-12 ,My name is function-22, now time: 0 
70 thread-10 ,My name is function-24, now time: 0 
nction-9, now time: | _ thread-1 ,My name is function-20, now time: 00:08:52 
72 thread-3 ,My name is function-18, now time: 00:08:52 
73 thread-2 ,My name is function-19, now time: 00:08:52 
74 thread-4 ,My name is function-17, now time: 00:08:52 
am thread-@ ,My 75 thread-6 ,My name is function-15, now time: 00:08:52 


thread-5 ,My name is function-16, now time: 00:08:52 
thread-10 ,My name is function-11, now time: 0i 
thread-7 ,My name is function-14, now time: 00:08 


79 thread-12 ,My name is function-9, now time: 00:08:52 
80 thread-9 ,My name is function-12, now time: 00:08 
81 thread-11 ,My name is function-10, now time: 0 
82 thread-8 ,My name is function-13, now time: 00:08:52 
I am thread-5 ,My 83 thread-0 ,My name is function-8, now time: 00:08:53 
on-6, now time: 84 thread-4 ,My name is function-4, now time: 00:08:53 
85 thread-l ,My name is function-7, now time: 00:08:53 


thread-3 ,My name is function-5, now time: 00:08:53 
thread-8 ,My name is function-0, now time: 00:08:53 
thread-S ,My name is function-3, now time: 00:08:53 
thread-6 ,My name is function-2, now time: 00:08:53 


The list is empty 


thread-7 function-1, time: 00:08:53 


length: 5,4Ln:1 Col:1 Sel:0|O Windows (CRLF) UTF-8 


3-15 Windows 下 未 使 用 线程 锁 的 多 线程 


只 有 91 行 的 数据 写 入 到 了 文件 内 ， 还 有 9 行 数据 丢失 了 。 为 了 避免 类 似 的 情况 ，Python 
采用 了 线程 锁 的 方法 确保 文件 的 安全 。 使 用 线程 锁 锁定 资源 ， 避 免 干扰 。 
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3.6.4 Project 2 实施 
在 Python 的 多 线程 中 有 两 种 锁 ， 
斥 锁 只 能 锁定 一 次 ， 解 锁 一 次 ， 而 可 
斥 锁 的 效果 如 何 ， 可 以 将 上 个 例子 稍微 修改 一 下 ， 加 上 互 斥 锁 测 试 一 下 即 可 。 
打开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 


种 是 互 斥 锁 ， 另 一 种 是 可 


Vi threadingWithLock.py 


threadingWithLock.py 的 代码 如 下 : 


#!/usr/bin/env Python3 
#-*- coding:utf-8 -*- 
. author = 'hstking hst_king@hotmail.com' 


import time 
import threading 


import codecs 


vo 0-100520 MnndP 


def showName (threadNum ,name): 


10 mutex.acquire() 


入 锁 。 这 两 者 的 


区 别 是 互 


入 锁 可 以 锁定 多 次 。 一 般 都 是 使 用 的 互 斥 锁 。 至 于 互 


11 
件 内 
12 
13 


with codecs.open('test.txt', 'a', 'utf-8') as fp: # 写 入 到 test .txt X 


nowTime = time.strftime('$H:$M:$S', time.localtime (time.time())) 
fp.write('I am thread-%d ,My name is function-%s, now time: 


%s\r\n ' $(threadNum, name, nowTime) ) 


14 print('I am thread-$d ,My name is function-%s, now time: %s ' 
$(threadNum, name, nowTime)) 

15 mutex.release () 

16 time.sleep (1) 

ay 

18 

19 if name == ' main "': 

20 with codecs.open('test.txt', 'w', 'utf-8') as fp: 

21 fp.write('') 

22 print('I am main ...') 

23 mutex = threading.Lock() 

24 names = [x for x in range(100)] 

25 threadNum = 1 

26 threadPool = [] 

27 while names: 

28 for i in range(13): 

29 try: 


115 


30 name = names.pop() 


Sui except IndexError as e: 

32 print('The list is empty') 
33 break 

34 else: 

35 t = threading.Thread(target=showName, args=(i, name, )) 
36 threadPool.append (t) 

37 t.start() 

38 while threadPool: 

39 t = threadPool.pop() 

40 t.join() 

41 threadNum += 1 

42 print('main is over ...") 


对 比 一 下 代码 ， 很 容易 理解 ， 就 是 所 有 线程 在 写 入 文件 前 如 上 一 个 互 斥 锁 ， 锁 定 资源 。 
等 写 入 完毕 后 再 释放 互 斥 锁 。 这 样 就 确保 数据 一 定 可 以 写 入 到 文件 内 了 。 

执行 程序 测试 一 下 。 运 行 命令 : 

python threadingWithLock.py 


ls -1 test.txt 
wc -1 test.txt 


执行 结果 如 图 3-16 所 示 。 


a kingGdebian8: ~/code/crawler - a x 


am thread-5 ,My name is function-16, now time: 
am thread-6 ,My name is function-15, now time 
am thread-7 ,My name is function-14, now time: 
am thread-8 ,My name is function-13, now time: 
am thread-9 ,My name is function-12, now time: 
am thread-10 ,My name is function-11, now time 208 
am 

am 


thread-11 ,My name is function-10, now time 
thread-12 ,My name is function-9, now time 
am thread-0 ,My name is function-8, 
am thread-1 ,My name is function-7, 
am thread-2 ,My name is function-6, 
am thread-3 ,My name is function-5, 
am thread-4 ,My name is function-4, 
am thread-5 ,My name is function-3, 
am thread-6 ,My name is function-2, 
am thread-7 ,My name is function-1, 
Ihe list is empty 
I am thread-8 ,My name is function-0, 
main is over ... 
king8debian8:-/code/crawler$ 1s -1 t 
-rw-r--r-- l king king 6011 108) 18 test.txt 
a we -1 test.txt| 


HHA HAHAH HMA HARM 


00 test.txt 
king@debian8:~/code/crawlers fj v 


3-16 Linux 下 使 用 线程 锁 的 多 线程 


检查 一 下 test.txt 文件 ， 正 好 100 行 ， 符 合 设计 的 结果 。 再 将 threadingWithLock.py 程序 
复制 到 Windows 下 运行 一 下 。 执 行 结果 如 图 3-17 所 示 。 
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H 


thread-1 
thread-2 
thread-3 
thread-4 
thread-5 
thread-6 
thread-7 
thread-8 
thread-9 ,My 
thread-18 ,My ni 
thread-11 ,My ni 
thread-12 ,My ni 
thread-@ ,My ni 
he list is empty 
thread-1 
thread-2 
thread-3 
thread-4 
thread-5 
thread-6 
thread-7 
thread-8 

is over ... 


BEGBEESREGRREBSEBREGRRRBEE 


[3 
3 


" 
5 


inggWINDOWS10 E:\sa 


thread-9 ,My name is function-25, 
thread-10 ,My name is function-24, now time: 


vhread-1l 


thread-0 ,My 


thread-l ,My 
thread-: 


My 
"My 
„My 
My 
My 
My 
My 
„My 


thread-5 
thread-6 
thread-7 
thread-8 
thread-9 
thread-10 
thread-11 
thread- 
thread-0 
thread-1 


My 


thread-8 ,My name is function-0, now time: 


,My name is function- 


name 
name 
name 


,My name is function-1l, now time: 
My name is function-10, now time: 
,My name is function-9, now time: 


name 
name 
name 


now time: Oi 


function-20, 
function-19, 
function-18, 
function-17, 
function-16, 
function-15, 
function-14, 
function-13, 
function-12, 


n 
5 
a 
esocococosg 


is now time: 


is 
is 
is 
is 
is 
is 
is 


function-8, 
function-7, 
function-6, 
function-5, 
function-4, 


Col: 1 


Sel: 0|0 
3-17 Windows 下 使 用 线程 锁 的 多 线程 
通过 对 比 可 以 看 出 使 用 线程 锁 的 情况 下 数据 才能 保证 安全 。 程 序 才能 按照 设计 


Windows (CR LF) ANSI 


上 的 方式 运 


行 。 如 果 不 使 用 线程 锁 ，Linux 下 没什么 问题 〈 这 只 是 特例 ， 并 不 代表 不 使 用 线程 锁 Linux 
下 就 是 安全 的 ) 。Windows 下 必定 会 出 现 这 样 那 样 的 问题 。 


3.7 本章 小 结 


本 章 的 几 个 Python 小 程序 都 比较 简单 。 程 序 简单 没关系 ， 只 要 可 以 解决 问题 就 行 。 学 习 
Python 最 快 的 方法 就 是 多 写 程序 ， 用 程序 解决 实际 问题 。Python 并 不 复杂 ， 多 写 、 多 做 、 多 


练 很 快 就 能 掌握 。 


117 


WES 


第 4 章 
<Python 反 虫 常用 模块 > 


Python 最 强大 的 方面 就 体现 在 它 那 近乎 无 限 的 模块 库 上 。 相 信 没 有 人 能 熟悉 所 有 的 模块 
功能 ， 也 没有 这 个 必要 。 只 需要 了 解 标准 模块 库 就 可 以 解决 大 部 分 的 问题 了 ， 特 殊 需 求 先 找 
第 三 方 的 模块 。 如 果 还 是 解决 不 了 问题 ， 那 就 到 github 磁 碰 运气 。 如 果实 在 是 运气 不 佳 ， 就 
自己 动手 丰衣足食 吧 。Python 3.6 标准 模块 库 的 官方 文档 可 参考 https://docs.python.org/3.6/py- 
modindex.html。 本 章 只 讲解 与 网 络 怜 虫 有 关 的 常用 模块 。 


PSM RAZ 


网 络 息 虫 ， 听 起 来 似乎 很 智能 ， 实 际 上 也 没 那 么 复杂 。 可 以 简单 地 理解 为 使 用 某 种 编程 
语言 (这 里 当然 是 使 用 Python 语言 ) 按照 一 定 的 顺序 、 规 则 主动 抓 取 互联 网 特定 信息 的 程序 
或 者 脚本 。 


4.1.1 网络 息 虫 实现 原理 


Python 疏 虫 的 原理 很 简单 。 第 一 步 : 使 用 Python 的 网 络 模块 ， 比 如 urllib2、httplib、 
requests 等 模块 ， 模 拟 浏览 器 向 服务 器 发 送 正 常 的 http (https) 请 求 。 服 务 器 正常 响应 后 ， 主 
机 将 收 到 包含 所 需 信 息 的 网 页 代码 。 第 二 步 : 主机 使 用 过 滤 模 块 ， 比 如 lxml、html.parser、re 
等 模块 ， 将 所 需 信 息 从 网 页 代码 中 过 滤 出 来 。 

在 第 一 步 中 ， 为 了 使 Python 发 送 的 http Chttps) 请 求 更 像 是 浏览 器 发 送 的 ， 可 以 在 其 中 
添加 header 和 cookies。 为 了 欺骗 服务 器 的 反 息 虫 ， 可 以 采取 利用 代理 或 间隔 一 段 时 间 发 送 一 
MR, DUS T RESIST SO o 

第 二 步 的 过 滤 比 较 简单 ， 只 需要 熟悉 一 下 过 滤 模块 的 规则 就 可 以 了 。 如 果 一 个 模块 无 法 
完全 过 滤 有 效 信息 〈 通 常 一 个 模块 就 足够 了 ) ， 可 以 采取 多 个 模块 协作 的 方式 ， 特 别 是 re 模 
块 ， 虽 然 使 用 起 来 比较 复杂 ， 但 用 于 过 滤 非 常 有 效 。 

虽然 项 目 被 称 为 网 络 息 虫 ， 但 实际 上 如 何 从 服务 器 上 顺利 地 得 到 数据 更 加 重要 ， 毕 竞 今 
时 不 同 往日 了 ， 随 便 上 一 个 requests 模块 就 能 从 网 站 得 到 数据 的 好 日 子 已 经 一 去 不 复 返 了 。 


相对 于 得 到 数据 而 言 ， 过 滤 数 据 要 简单 得 多 。 


4.1.2 ETER 


PIER KE BRS AMAT 1 页 。 如 果 只 有 1 页 的 数据 ， 那 也 无 须 什 么 息 虫 了 。 直 接 
用 sed、awk、 正 则 就 好 ， 效 率 更 高 。 既 然 是 多 页 那 就 涉及 一 个 顺序 问题 ， 即 先 爬 哪 页 、 后 怜 
哪 页 。 

以 一 个 最 简单 的 疏 虫 为 例 。 从 礁 虫 程序 出 发 ， 开 始 扑 向 多 个 页 面 ， 然 后 从 页 面 中 获取 数 
据 。 这 种 形式 有 点 类 似 于 树 状 结构 ， 如 图 4-1 所 示 。 


图 4-1 爬虫 示意 图 


疏 行 顺序 的 选择 有 点 类 似 于 二 叉 树 ， 一 个 是 深度 优先 ， 一 个 是 广度 优先 ， 一 般 大 多 会 采 
用 深度 优先 的 算法 。 这 种 算法 是 从 怜 虫 出 发 ， 先 请 求 Html 的 数据 ， 再 从 得 到 的 数据 中 过 滤 
得 到 Datal 。 然 后 请 求 Html2 的 数据 ， 再 过 滤 得 到 Data2， 以 此 类 推 。 个 人 常用 的 bs4 爬虫 基 
本 都 是 采用 这 种 方法 。 好 处 在 于 简单 直观 ， 非 常 符合 人 类 正常 的 思维 。 也 有 采用 广度 优先 
的 ， 那 就 是 先 将 所 有 的 网 页 数据 收集 完毕 ， 然 后 一 一 过 滤 获 取 有 效 数 据 ， 只 是 采用 这 种 方法 
的 怜 虫 比较 少见 ，Pyspider 就 是 这 种 类 型 的 。 


单机 械 ， 可 能 需要 根据 网 站 的 大 小 、 网 页 的 重要 性 以 及 权重 等 分 成 不 同 的 等 级 来 仆 。 比 
较 知 名 的 仆 行 策略 有 pagerank、opic 等 。 


| 3 RUE (B EJ b Je UP A Sb B SERES IURE ECCE SRA SSA, TARA BT 


4.1.3 身份 识别 
在 网 络 上 ， 网 站 服务 器 是 如 何 识别 用 户 身份 的 呢 ? 答案 是 Cookie. 
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Cookie 是 指 网 站 为 了 辨别 用 户 身份 、 进 行 session 跟踪 而 储存 在 用 户 本 地 终端 上 的 数据 
(通常 经 过 加 密 ) 。 比 如 说 有 些 网 站 需要 登录 后 才能 访问 某 个 页 面 ， 在 登录 之 前 ， 你 想 抓 取 
某 个 页 面 内 容 是 不 允许 的 ， 就 可 以 利用 urllib2 库 保 存 我 们 登录 的 Cookie， 再 抓 取 其 他 页 面 就 
达到 目的 了 。 在 Python 中 ， 负 责 Cookie 部 分 的 模块 为 cookielib。 


Python 3 标准 库 之 urllib.request 模块 


涉及 网 络 时 ， 必 不 可 少 的 模块 就 是 urllib 了 。 顾 名 思 义 ， 这 个 模块 主要 负责 打开 URL 和 HTTP 
协议 之 类 的 。 这 个 模块 就 是 Python 2 标准 库 中 的 urllib2 模块 的 升级 版 。Python 3 的 urllib.request 模 
块 基本 与 Python 2 的 urllib2 模块 是 一 致 的 。urllib.request 模块 的 官方 文档 可 参考 
https://docs.python.org/3/library/urllib.request.html#module-urllib.request 


4.2.1 urllib.request 请 求 返回 网 页 
urllib.request 最 简单 的 应 用 就 是 urllie.request.urlopen 了， 函数 使 用 如 下 : 


urllib.request.urlopen(url[, data[, timeout[, cafile[, capath[, cadefault[, 
context]]]]]] 


按照 官方 文档 ，urllib.request.urlopen 可 以 打开 HTTP. HTTPS, FTP 协议 的 URL， 主 要 
应 用 于 HTTP 协议 。 参 数 中 以 ca 开头 的 都 是 跟 身 份 验证 有 关 的 ， 不 太 常 用 。data 参数 是 以 
post 方式 提交 URL 时 使 用 的 ， 通 常 使 用 得 不 多 。 最 常用 的 就 只 有 URL 和 timeout BAT. 
url 参数 是 提交 的 网 络 地 址 (地 址 全 称 ， 前 端 需 协 议 名 ， 后 端 需 端 口 ， 比 如 
http://192.168.1.1:80) , timeout 是 超时 时 间 设 置 。 

函数 返回 对 象 有 3 个 额外 的 使 用 方法 。geturl() 函 数 返 回 response 的 url 信息 ， 常 用 于 
url 重 定向 的 情况 。info() 函 数 返回 response 的 基本 信息 。getcode() 函 数 返回 response WAR 
态 代 码 ， 最 常见 的 代码 是 200 服务 器 成 功 返 回 网 页 ，404 请 求 的 网 页 不 存在 ，503 服务 器 
暂时 不 可 用 。 


【示例 4-1) 测试 使 用 urllib.request 模块 打开 百度 的 首页 。 编写 connBaidu.py， 打 开 Putty 
连接 到 Linux， 执 行 命令 : 


cd code/crawler 


vi connBaidu.py 


connBaidu.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 

2 #-*= coding: utf-8 -*- 

3 author = 'hstking hst_king@hotmail.com' 
4 
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5 import urllib.request 


6 


def clear(): 


"该 函数 用 于 清 屏 ''' 

print (HERS, ER 3 秒 后 翻 页 ') 

time.sleep (3) 

OS = platform.system() 

if (OS == 'Windows'): 
os.system('cls') 

else: 


os.system('clear') 


def linkBaidu(): 


sur 


url = 'http://www.baidu.com' 
132 

response = urllib.request.urlopen (url,timeout-3) 

result = response.read().decode('utf-8') 
except Exception as e: 

print ("网 络 地 址 错误 ") 

exit() 
with open('baidu.txt', 'w') as fp: 

fp.write (result) 
print ("获取 url 信息 : response.geturl() : $s" $response.geturl()) 
print ("获取 返回 代码 : response.getcode() : $s" $response.getcode()) 
print ("获取 返回 信息 : response.info() : $s" $response.info()) 
print ("获取 的 网 页 内 容 已 存 入 当前 目录 的 baidu.txt 中 ， 请 自行 查看 ") 


pame _ == "main "i 
linkBaidu () 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 connBaidu.py. connBaidu.py 调用 urllib2 模块 


请 求 百 度 的 主页 ， 显 示 返 


命令 : 


E 


的 信息 并 将 服务 器 答复 的 数据 保存 到 baidu.txt 中 以 备查 询 。 执 行 


Python3 connBaidu.py 


得 到 的 结果 如 图 4-2 所 示 。 
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: response.geturl() : http://www.baidu 
response.getcode() : 200 
esponse.info() : Date: Fri, 1. -— 

Content-Type: text/html; charset-utf-B 
ITransfer-Encoding: chunked 
Connection: C 

Vary: Accept-i 


1160AD 5 Pe a, 31-Dec-3 
ath=/; 
71160A 1-Dec-37 23 
/; dom 
Thu, 3 -age-214748 


85; pa 


61661c 
T 


BDQID: Oxe8fd 


IBDUSERID: 0 


获取 的 网 页 内 容 己 存 入 当前 目录 的 baidu.txt 中 ， 请 自行 查看 
king@debian8:~/code/crawler$ -[] 


图 4-2 运行 connBaidu.py 
从 baidu.txt 的 结果 可 以 看 出 百度 首页 的 页 面 虽然 很 简洁 ， 但 内 容 还 是 很 丰富 的 。 最 简 和 
的 urllib2 用 法 就 是 这 样 了 。 至 于 那些 跟 身份 验证 有 关 的 参数 ， 如 有 需要 请 自行 参考 官方 文档 
或 Google。 


Te 


4.2.2 urllib.request 使 用 代理 访问 网 页 

在 使 用 网 络 疏 虫 时 ， 有 的 网 站 拒绝 了 一 些 IP 的 直接 访问 ， 这 时 就 不 得 不 利用 代理 了 。 
urllib2 添加 代理 的 方式 不 止 一 种 。 这 里 以 最 简单 也 是 最 直接 的 一 种 为 例 ， 至 于 免费 的 代理 
网 络 上 很 多 ， 可 自行 搜索 一 下 ， 选 择 一 个 确定 可 用 的 Proxy， 这 里 选择 的 是 从 局 域 网 中 自 设 
的 代理 http://192.168.1.99:8080。 

【示例 4-2】 编 写 connWithProxypy， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 


vi connWithProxy.py 


connWithProxy.py 的 代码 如 下 : 


1 #!/usr/bin/env Python3 

2 #-*= coding: utf-8 -*- 

3 author = 'hstking hst kingGhotmail.com' 
4 

5 import urllib.request 
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6 import sys 


7 import re 


8 

9 def testArgument (): 

10 " "测试 输入 参数 ， 只 需要 一 个 参数 nr. 
TT if len(sys.argv) !- 2: 

12 print (' 需 要 且 只 需要 一 个 参数 就 够 了 ') 
13 tipUse() 

14 exit() 

15 else: 

16 TP = TestProxy(sys.argv[1]) 
1 

18 def tipUse(): 

19 '''! 显 示 提 示 信息 ttt 


20 print (' 该 程序 只 能 输入 一 个 参数 ， 这 个 参数 必须 是 一 个 可 用 的 proxy") 
27 print('usage: python testUrllib2WithProxy.py http://1.2.3.4:5') 
22 print('usage: python testUrllib2WithProxy.py https://1.2.3.4:5') 


23 

24 

25 class TestProxy (object): 

26 "这 个 类 的 作用 是 测试 proxy 是 否 有 效 ''' 

27 def init  (self,proxy): 

28 self.proxy - proxy 

29 self.checkProxyFormat (self.proxy) 

30 self.url = 'https://www.baidu.com' 

31 self.timeout = 5 

32 self.flagWord = 'www.baidu.com' # 在 网 页 返回 的 数据 中 查找 这 个 关键 词 

33 self.useProxy (self.proxy) 

34 

35 def checkProxyFormat (self,proxy): 

36 trys 

37 proxyMatch = 
re.compile('http[s]?://[Nd] (1, 3) V. [\d] {1,3}\. [Nd] {1,3}\. [Nd] (1, 3) : [\d]{1,5}$") 

38 re.search (proxyMatch, proxy) .group() 

39 except AttributeError as e: 

40 tipUse() 

41 exit () 

42 flag = 1 

43 proxy = proxy.replace('//','') 

44 try: 

45 protocol = proxy.split(':')[0] 

46 ip = proxy.split(':')[1] 

47 port = proxy.split(':')[2] 
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48 except IndexError as e: 


49 print (' 下 标 出 界 ') 

50 tipUse() 

51 exit () 

52 flag = flag and len(proxy.split(':')) == 3 and len(ip.split('.')) 
== 4 

53 flag = ip.split('.')[0] in map(str,range(1,256)) and flag 

54 flag = ip.split('.')[1] in map(str,range(256)) and flag 

55 flag = ip.split('.')[2] in map(str,range(256)) and flag 

56 flag = ip.split('.') [3] in map(str,range(1,255)) and flag 

Sn flag = protocol in ['http', 'https'] and flag 

58 flag = port in map(str,range(1,65535)) and flag 

59 "7 "这 里 是 在 检查 proxy 的 格式 111 

60 if flag: 

61 print (' 输 入 的 http 代理 服务 器 符合 标准 ') 

62 else: 

63 tipUse() 

64 exit() 

65 

66 def useProxy(self,proxy): 

67 "7 "利用 代理 访问 百度 ， 并 查找 关键 词 ttt 

68 protocol = proxy.split('://')[0] 

69 proxy_handler = urllib.request.ProxyHandler({protocol: proxy}) 

70 opener = urllib.request.build opener (proxy handler) 

7 urllib.request.install_opener (opener) 

72 try: 

aS response = urllib.request.urlopen(self.url,timeout = 


self.timeout) 


74 except Exception as e: 

75 print (' 连 接 错误 ， 退 出 程序 ') 

76 exit () 

TI result = response.read().decode('utf-8') 
78 print('$s' %result) 

79 if re.search(self.flagWord, result): 
80 print (' 已 取得 特征 词 ， 该 代理 可 用 ') 

81 else: 

82 print (' 该 代理 不 可 用 ') 

83 

84 

85 if _ name == ' mäin ™s 

86 testArgument () 


1% Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 connWithProxy.py. connWithProxy.py 将 使 用 
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代理 来 访问 百度 的 首页 ， 并 设 定 一 个 特征 词 。 如 果 能 在 返回 的 结果 中 取得 这 个 特征 词 ， 就 说 
明 该 proxy 是 可 用 的 。 执 行 命令 : 
Python3 connWithProxy.py http://192.168.1.99:8080 
得 到 的 结果 如 图 4-3 所 示 。 
a king@debiana ode/crawle: - a 


king@debian8:~/code/crawler$| python3 connWithProxy.py http://192.168.1.99:8080 


输入 的 http 代 理 服务 器 符合 标准 


<script> 
location. replace (location.href.replace("https://", "http://")); 


</script> 
关键 词 


<noscript><meta http-equive"refresh" content="0;urle=http: /fwwwbaidu. com 
/"»«/noscript» 


已 取得 特征 词 ， 该 代理 可 用 


king&debian8:-/code/crawlers [] 


4-3 运行 connWithProxy.py 


至 此 ，urllib.request 使 用 代理 打开 网 页 测试 完毕 。 这 个 程序 采用 的 是 函数 与 类 混合 的 形 
式 。 这 个 程序 无 须 修改 即 可 作为 模块 导入 其 他 程序 中 ， 用 于 测试 Proxy 是 否 可 用 。 


urllib.request 是 Python 3 中 使 用 率 非 常 高 的 模块 ， 有 很 多 第 三 方 模块 都 是 通过 包装 这 个 模 
N f 块 的 功能 而 开发 出 来 的 。 这 是 一 个 必须 掌握 的 模块 。 


4.2.3 urllib.request 修改 header 
在 使 用 网 络 怜 虫 获取 数据 时 ， 有 一 些 站 点 不 喜欢 被 朴 虫 〈 非 人 为 访问 ) 访问 ， 会 检查 连 
接 者 的 “身份 证 ”。 默 认 情况 下 urllib.request 把 自己 的 版 本 号 Python-urllib/x.y (x 和 y 是 
Python 主 版 本 和 次 版 本 号 ， 例 如 Python-urllib/3.6) 作为 “身份 证 号 码 ” 来 通过 检查 。 这 个 
“身份 证 号 码 ” 可 能 会 让 站 点 迷惑 ， 或 者 干脆 拒绝 访问 。 这 时 可 以 让 Python 程序 冒充 浏览 器 
访问 网 站 。 网 站 是 通过 浏览 器 发 送 过 来 的 User-Agent 的 值 来 确认 浏览 器 身份 的 。 用 
urllib.request 创建 一 个 请 求 对 象 ， 并 给 它 一 个 包含 头 数据 的 字典 ， 修 改 User-Agent 欺骗 网 
站 。 一 般 来 说 ， 把 User-Agent 修改 成 Internet Explorer 是 最 安全 的 ， 改 成 其 他 的 当然 也 行 。 
先 将 准备 工作 做 好 ， 将 所 有 常见 的 User-Agent 全 部 放 到 一 个 userAgents.py 文件 中 在 之 
前 的 程序 中 使 用 过 相似 的 资源 文件 resource.py， 与 之 不 同 的 是 userAgents.py 中 的 User-Agent 
使 用 的 是 字典 结构 ，resource.py 使 用 的 是 列表 结构 。 前 者 适用 于 需要 特定 浏览 器 的 页 面 ， 后 
者 则 适用 于 那些 页 面 比 较 友好 的 网 页 ) ， 以 字典 的 形式 保存 起 来 ， 方 便 以 后 当成 模块 导入 使 
用 。userAgents.py 的 代码 如 下 : 


1 #!/usr/bin/env python3 
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2 #=*= coding: utf-8 =*= 

3 author = 'hstking hst_king@hotmail.com' 

4 

5 pcUserAgent - ( 

6 "safari 5.1 - MAC":"User-Agent:Mozilla/5.0 (Macintosh; U; Intel Mac OS 
X 10 6 8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 
Safari/534.50", 

7 "safari 5.1 - Windows":"User-Agent:Mozilla/5.0 (Windows; U; Windows NT 
6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50", 

8 "IE 9.0":"User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; 
Trident/5.0;", 

9 "TEU8,0 
Trident/4.0)", 

10 "IE 7.0":"User-Agent:Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 
6.0)", 

11 "IE 6.0":"User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 
lh 

12 "Firefox 4.0.1 - MAC":"User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS 
X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1", 

13 "Firefox 4.0.1 - Windows":"User-Agent:Mozilla/5.0 (Windows NT 6.1; 
rv:2.0.1) Gecko/20100101 Firefox/4.0.1", 

14 "Opera 11.11 - MAC":"User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 
10.6.8; U; en) Presto/2.8.131 Version/11.11", 

15 "Opera 11.11 - Windows":"User-Agent:Opera/9.80 (Windows NT 6.1; U; en) 
Presto/2.8.131 Version/11.11", 

16 "Chrome 17.0 - MAC":"User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 
10 7 0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 
Safarb/535.T1", 

17 "Maxthon":"User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 
5.1; Maxthon 2.0)", 

18 "Tencent TT":"User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 
5.1; TencentTraveler 4.0)", 

19 "The World 2.x":"User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows 
NT 5.1)", 

20 "The World 3.x":"User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows 
NT 5.1; The World)", 

21 "sogou 1.x":"User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 
5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 
2.X MetaSr 1.0)”, 

22 "360":"User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 
360SE)", 

23 "Avant":"User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 


"User-Agent:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; 


Avant Browser)", 
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24 "Green Browser":"User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows 
INED Sm 

PAS 

26 

27 mobileUserAgent - ( 

28 "iOS 4.33 - iPhone":"User-Agent:Mozilla/5.0 (iPhone; U; CPU iPhone OS 
4 3 3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) 
Version/5.0.2 Mobile/8J2 Safari/6533.18.5", 

29 "iOS 4.33 - iPod Touch":"User-Agent:Mozilla/5.0 (iPod; U; CPU iPhone OS 
4 3 3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) 
Version/5.0.2 Mobile/8J2 Safari/6533.18.5", 

30 "iOS 4.33 - iPad":"User-Agent:Mozilla/5.0 (iPad; U; CPU OS 4 3 3 like 
Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 
Mobile/8J2 Safari/6533.18.5", 

31 "Android N1":"User-Agent: Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; 
Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 
Mobile Safari/533.1", 

32 "Android QQ":"User-Agent: MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 
2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like 
Gecko) Version/4.0 Mobile Safari/533.1", 

33 "Android Opera ":"User-Agent: Opera/9.80 (Android 2.3.4; Linux; Opera 
Mobi/build-1107180945; U; en-GB) Presto/2.8.149 Version/11.10", 

34 "Android Pad Moto Xoom":"User-Agent: Mozilla/5.0 (Linux; U; Android 3.0; 
en-us; Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 
Safari/534.13", 

35 "BlackBerry":"User-Agent: Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; 
en) AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile 
Safari/534.1+", 

36 "WebOS HP Touchpad":"User-Agent: Mozilla/5.0 (hp-tablet; Linux; 
hpwOS/3.0.0; U; en-US) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/233.70 
Safari/534.6 TouchPad/1.0", 

37 "Nokia N97":"User-Agent: Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 
NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 
(KHTML, like Gecko) BrowserNG/7.1.18124", 

38 "Windows Phone Mango":"User-Agent: Mozilla/5.0 (compatible; MSIE 9.0; 
Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)", 

39 "UC":"User-Agent: UCWEB7.0.2.37/28/999", 

40 "UC standard":"User-Agent: NOKIA5700/ UCWEB7.0.2.37/28/999", 

41 "UCOpenwave":"User-Agent: Openwave/ UCWEB7.0.2.37/28/999" 

42 "UC Opera":"User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; ) 
Opera/UCWEB7.0.2.37/28/999" 

43 ] 


userAgents.py 里 只 包含 了 最 常用 的 User-Agent， 如 有 特殊 需要 可 以 继续 添加 ， 但 在 使 用 
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Vo] 2& If UIS] gt Tf A Se Fs UL BS User-Agent， 以 免 被 网 站 拒绝 访问 。 
【示例 4-3】 准 备 工 作 完 毕 后 ， 开 始 编写 connModifyHeader.py. 4] FF Putty 连接 到 
Linux， 执 行 命令 : 


cd code/crawler 
Vi connModifyHeader.py 


connModifyHeaderpy 的 代码 如 下 : 


1 #!/usr/bin/env python3 
2 #=*= coding: utf-8 =*= 
3 author = 'hstking hst king@hotmail.com' 
4 
5 import urllib.request 
6 import userAgents 
7 '''userAgents.py 是 个 自 定义 的 模块 ， 位 置 处 于 当前 目录 下 ''' 
8 
9 class ModifyHeader (object): 
10 '" Rl urllib.request 模块 修改 header ''' 
TL def _ init (self): 
12 # 这 个 是 PC + IE ft) User-Agent 
T3 PIUA = userAgents.pcUserAgent.get('IE 9.0') 
14 # 这 个 是 Mobile + UC fi] User-Agent 
15 MUUA = userAgents.mobileUserAgent.get('UC standard') 
16 # 测 试用 的 网 站 选择 的 是 有 道 翻译 
17 self.url = 'http://fanyi.youdao.com' 
18 
19 self.useUserAgent (PIUA, 1) 
20 self.useUserAgent (MUUA, 2) 
21 
22 def useUserAgent (self, userAgent ,name): 
23 request = urllib.request.Request (self.url) 
24 
request.add_header (userAgent.split(':')[0],userAgent.split(':')[1]) 
25 response = urllib.request.urlopen (request) 
26 fileName = str (name) + '.html' 
27 with open(fileName,'a') as fp: 
28 fp.write("%s\n\n" $userAgent) 
29 fp.write(response.read().decode('utf-8')) 
30 
Sil i£ hape == !_ main "s 
32 umh = ModifyHeader () 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 connModifyHeader.py. connModifyHeader.py 
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使 用 了 2 个 不 同 的 浏览 器 header 访问 有 道 翻译 的 主页 ， 并 将 返回 的 结果 保存 起 来 。 执 行 全 
$: 


python3 connModifyHeader.py 


得 到 了 1.html 和 2.html， 打 开 这 两 个 网 页 比较 一 下 ， 得 到 的 结果 如 图 4-4 所 示 。 


AWMF - Iceweasel x 
有 道 翻译 x 4 
@ file:///home/king/code/crawler/2.html vem 


ser-Agent: NOKIAS700/ UCWEB7.0.2.37/28/999 


在 线 翻 译 _ 有 道 Iceweasel x 
在 线 翻译 有 道 x\+ 
€ | & file//Ihome/king/code/crawler/1.html ve|»|z 


Iser-AgentMozilla/S.0 (compatible, MSIE 9.0, Windows NT 6.1; Triden¥S.0), User-AgentMo: 
‘ompatible; MSIE 9.0; Windows NT 6.1; Tridents.0), 


fai ER 免费 、 munssecams 


4-4 j&ÍT connModifyHeader.py 


urllib.request 添加 Header 打开 网 页 测试 完毕 。 同 一 网 站 会 给 不 同 的 浏览 器 返回 不 同 的 内 
容 。 所 以 在 使 用 网 络 息 虫 时 ， 除 非 有 反 疏 虫 的 限制 〈 一 般 都 有 反 疏 虫 ) ， 条 件 允 许 的 话 尽 可 
能 使 用 一 个 固定 的 User-Agent。 


P E 
f 
Ai 
GE 
"Tow 


"e. 


Python 3 标准 库 之 logging 模块 


logging 模块 ， 顾 名 思 义 就 是 针对 日 志 的 。 到 目前 为 止 ， 所 有 的 程序 标准 输出 〈 输 出 到 屏 
幕 ) 都 是 使 用 的 print 函数 。logging 模块 可 以 蔡 代 print 函数 的 功能 ， 并 能 将 标准 输出 输入 到 
日 志文 件 保存 起 来 ， 而 且 利 用 logging 模块 可 以 部 分 替代 debug 的 功能 ， 给 程序 排 错 。 


4.3.4 E logging 模块 

首先 要 说 到 的 是 logging 模块 的 几 个 级 别 。 默 认 情况 下 logging 模块 有 6 个 级 别 。 它 们 分 
别 是 NOTSET 值 为 0、DEBUG 值 为 10、INFO 值 为 20、WARNING 值 为 30、ERROR 值 为 
40. CRITICAL 值 为 S0〈 也 可 以 自 定义 级 别 ) 。 这 些 级 别 的 用 处 是 ， 先 将 自己 的 日 志 定 一 个 
级 别 ，logging 模块 发 出 的 信息 级 别 高 于 定义 的 级 别 ， 将 在 标准 输出 〈 屏 幕 ) 显示 出 来 。 发 出 
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的 信息 级 别 低 于 定义 的 级 别 则 略 过 。 如 果 未 定义 级 别 ， 默 认定 义 的 级 别 是 WARNING: 
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先 测试 一 下 。 在 Windows 中 打开 IDLE， 执 行 命令 : 


import logging 

logging.NOTSET 

logging. DEBUG 

logging. INFO 

logging .WARNING 

logging.ERROR 
logging.CRITICAL 
logging.debug ("debug message") 
logging.info("info message") 
logging.warning("warning message") 
logging.error ("error message") 


logging.critical("critical message") 


执行 结果 如 图 4-5 所 示 。 


File Edit Shell Debug Options Window Help 


Python 3.6.4 (v3.6.4:d48eceb, Dec 19 2017, 06:54:40) [MSC v. 1900 64 bit (AID64)] + 
on win32 

Type “copyright”, "credits or “license()” for more information. 
» 


import logging 
>>> logging. NOTSET 
0 


logging. DEBUG 
logging. INFO 
logging. WARNING 
> logging. ERROR 
> logging. CRITICAL 


logging. debug (“degub n 

logging. info("info 

logging. warning ("warning m 
WARNING: 
>>> logging. error (“error m 
ERROR: root:error message 
>>> logging. critical ("critical m 
CRITICAL: root:critical message 
>| 


K 4-5 logging 级别 


使 用 logging 最 简单 的 方法 就 是 logging.basicConfig. logging.basicConfig 的 应 用 方法 为 : 


logging.basicConfig([**kwargs]) 
这 个 函数 可 用 的 参数 有 : 


€ filename: 用 指定 的 文件 名 创建 FiledHandler (后 边 会 具体 讲解 handler 的 概念 ) ， 
这 样 日 志 会 被 存储 在 指定 的 文件 中 。 

€ filemode: 文件 打开 方式 ， 在 指定 了 filename 时 使 用 这 个 参数 ， 默 认 值 为 “a” 还 可 
指定 为 “w”。 

€ format: 指定 handler 使 用 的 日 志 显 示 格 式 。 


datefmt: 指定 日 期 时 间 格 式 。 

level: 设置 rootlogger (后 边 会 讲解 具体 概念 ) 的 日 志 级 别 。 

stream: 用 指定 的 stream 创建 StreamHandler。 可 以 指定 输出 到 sys.stderr,sys.stdout 
或 者 文件 ， 默 认为 sys.stderr。 若 同时 列 出 了 filename 和 stream 两 个 参数 ， 则 stream 
参数 会 被 忽略 。 


参数 中 的 format 参数 可 能 用 到 的 格式 化 串 : 


%(name)s: logger 的 名 字 。 

%(levelno)s: 数字 形式 的 日 志 级 别 。 

%(levelname)s: 文本 形式 的 日 志 级 别 。 

%(pathname)s: 调用 日 志 输 出 函数 的 模块 的 完整 路 径 名 ， 可 能 没有 。 
%(filename)s: 调用 日 志 输 出 函数 的 模块 的 文件 名 。 

%(module)s: 调用 日 志 输出 函数 的 模块 名 。 

%(funcName)s: 调用 日 志 输 出 函数 的 函数 名 。 

%(lineno)d: 调用 日 志 输 出 函数 的 语句 所 在 的 代码 行 。 

%(created)f: 当前 时 间 ， 用 UNIX 标准 的 表示 时 间 的 浮 点 数 表 示 。 
%(relativeCreated)d: 输出 日 志 信 息 时 ， 自 logger 创建 以 来 的 毫秒 数 。 
%(asctime)s: 字符 串 形 式 的 当前 时 间 。 默 认 格 式 是 “2003-07-08 16:49:45,896” , 
过 号 后 面 的 是 毫秒 。 

%(thread)d: 线程 ID。 可 能 没有 。 

%(threadName)s: 线程 名 。 可 能 没有 。 

%(process)d: 进程 ID。 可 能 没有 。 

%(message)s: 用 户 输 出 的 消息 。 


还 有 一 些 参数 应 用 与 进程 线程 等 高 级 应 用 ， 可 自行 参考 官方 文档 或 Google。 
参数 中 的 datefmt 是 日 期 的 格式 化 ， 最 常用 的 几 个 格式 化 是 : 


AY: 年 份 的 长 格式 ， 如 1999, 
%y: 年 份 的 短 格式 ， 如 99, 
%m: 月 份 ，01~12。 

%d: 日 期 ，01~31。 

%H: 小 时 ，0~23。 

%w: 星期 0~6， 星 期 天 是 0。 
%M: 分 钟 ，00~59。 

%S: 秒 ，00~59。 


日 期 格式 化 的 参数 还 有 一 些 不 太 常 用 的 ， 这 里 就 不 多 做 介绍 了 。 读 者 可 自行 参考 官方 文 
档 或 Google。 


【示例 4-4】 下 面 利用 logging.basicConfig 写 一 个 最 基本 的 日 志 模块 应 用 程序 ， 编 写 
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testLogging.py, 1TJT Putty 连接 到 Linux, Afr ép 4: 


cd code/crawler 
vi testLogging.py 


testLogging.py 的 代码 如 下 : 


#!/usr/bin/env Python3 
#=*= coding: utf=8 =*= 
. author = 'hstking hst_king@hotmail.com' 


class TestLogging (object): 
def init (self): 


ab 
2 
E 
4 
5 import logging 
6 
7 
8 
9 logFormat-'$(asctime)-12s $(levelname)-8s $(name)-10s %(message)-12s' 


10 logFileName = './testLog.txt' 
m 
12 logging.basicConfig(level - logging.INFO, 


13 format - logFormat, 
14 filename - logFileName, 
15 filemode = 'w') 


16 

2 logging.debug('debug message') 

18 logging.info('info message') 

19 logging.warning('warning message') 
20 logging.error('error message') 

21 logging.critical('critical message!) 
22 

23 


24 if _name_ main: 
25 tl = TestLogging() 


Jk Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 testLogging.py. testlogging.py 用 于 测试 
logging 模块 。 该 脚本 使 用 不 同 的 级 别 向 logger 发 送 了 几 条 信息 。 执 行 命令 : 


Python3 testLogging.py 
cat testLog.txt 


得 到 的 结果 如 图 4-6 所 示 。 


iP kingGdebian8: ~/code/crawler - n x 


er$ python3 testLogging.py ^ 
r$ cat testLog.txt 

INFO root info message 

WARNING root warning message 

root error message 

2018-01-21 1 t ITICAL root critical message 

kingêdebian8: ers fj 


4-6 run testLogging.py 


默认 的 logging 2H logging INFO (程序 第 12 行 ) M logging.debug (程序 第 17 47) 
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的 级 别 低 于 logging.INFO， 所 以 没有 显示 。 
在 程序 中 的 关键 位 置 插入 log 信息 ， 执 行 Python 程序 时 出 现 什么 问题 ， 可 以 直接 查找 日 
志文 件 ， 无 须 再 一 步 步 地 debug 调试 。 


4.3.2 自 定 义 模块 myLog 

使 用 logging 模块 很 方便 ， 但 在 编写 过 程 中 添加 一 大 堆 的 代码 就 不 是 那么 愉快 的 事情 
了 。 好 在 Python 有 强大 的 import， 完 全 可 以 先 配 置 好 一 个 myLog.py， 以 后 需要 使 用 时 直接 
导入 程序 中 即 可 。 

【示例 4-5】 编写 myLog.py。 打 开 Putty 连接 到 Linux， 执 行 命令 : 

cd code/crawler 

vi myLog.py 

myLog.py 的 代码 如 下 : 


#!/usr/bin/env Python3 
+ —*— coding:uti-8 -=*= 


m 


. author  - 'hstking hst_king@hotmail.com' 


import logging 
import getpass 
import sys 


wQ 0 -) Oo HB QN 


m 
o 


# 定义 MyLog 类 
class MyLog (object): 


m 
[m 


12 " "这 个 类 用 于 创建 一 个 自用 的 Log ''' 

13 def init (self): # 类 MyLog 的 构造 函数 

14 user = getpass.getuser() 

15 self.logger = logging.getLogger (user) 

16 self.logger.setLevel (logging.DEBUG) 

al] logFile = './' + sys.argv[0][0:-3] + '.log' # 日 志文 件 名 

18 formatter = logging.Formatter('%(asctime)-12s %(levelname) -8s 
%(name)-10s %(message)-12s') 

2i 

20 "'"' 日 志 显示 到 屏幕 上 并 输出 到 日 志文 件 内 ''' 

23 logHand = logging.FileHandler (logFile) 

22 logHand.setFormatter (formatter) 

23 logHand.setLevel(logging.ERROR) # 只 有 错误 才 会 被 记录 到 logfile 

24 

25 logHandSt = logging.StreamHandler () 

26 logHandSt.setFormatter (formatter) 

ZI 

28 self.logger.addHandler (logHand) 

29 self.logger.addHandler (logHandSt) 
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30 


31 "rt 目 志 的 5 个 级 别 对 应 以 下 的 5 个 函数 11 
32 def debug(self,msg) : 

33 self.logger.debug (msg) 

34 

J35 def info(self,msg): 

36 self.logger.info (msg) 

S 

38 def warn(self,msg): 

39 self.logger.warn (msg) 

40 

41 def error(self,msg): 

42 self.logger.error (msg) 

43 

44 def critical(self,msg): 

45 self.logger.critical (msg) 
46 

47 if name == ' main "': 


48 mylog - MyLog() 
49 mylog.debug("I'm debug") 
50 mylog.info("I'm info") 


SI mylog.warn("I'm warn") 
52 mylog.error ("I'm error") 
53 mylog.critical ("I'm critical") 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 myLog.py. myLog.py 可 以 当成 一 个 脚本 执 
行 ， 也 可 以 当成 一 个 模块 导入 其 他 的 脚本 中 执行 。 在 这 里 是 作为 脚本 使 用 的 ， 它 的 作用 是 将 
所 有 的 log 信息 显示 到 屏幕 上 、 错 误 信息 存 入 log 文档 中 。 执 行 命令 : 

Python myLog.py 

cat myLog.log 


得 到 的 结果 如 图 4-7 所 示 。 


a king@debian8: ~/code/crawler 


/code/crawler$ python3 myLog.py 
king I'm 
king 
king 
king 


1 13:42:41,026 ERROR king 
1 13:42:41,026 CRITICAL king 
king8debianB:-/code/crawler$ 


4-7 运行 myLog.py 


【示例 4-6】 下 面 再 写 一 个 testMyLog.py， 在 程序 中 导入 图 4-7 中 的 myLog.py 作为 模块 使 
用 。 编 写 testMyLog.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
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vi testMyLog.py 


testMyLog.py 的 代码 如 下 : 


1 #!/usr/bin/env Python3 
2 #-*- coding: utf-8 -*- 


3 author  - 'hst king hst_king@hotmail.com' 
4 

5 from myLog import MyLog 

6 

7 if | name  -- ' main ': 

8 ml = MyLog() 

9 ml.debug('I am debug message") 

10 ml.info('I am info message') 

11 ml.warn('I am warn message') 

ale ml.error('I am error message') 

13 ml.critical('I am critical message') 


按 Esc 键 ， 进 入 命令 模式 后 输入 :WwWq， 保存 testMyLog.py 。testMyLog.py 调用 了 
myLog.py， 将 它 作为 模块 使 用 。 执 行 命令 : 


Python testMyLog.py 
cat testMyLog.log 


得 到 的 结果 如 图 4-8 所 示 。 


AP king@debian8: ~/code/crawler 


code/crawler$ vi testMyLog.py 
/code/crawlerS python3 testMyLog.py 
29,402 DEBUG k: m debug message 
E fo message 
4 IN rn message 


402 ERROR I am error message 
,403 CRITICAL m critical message 
de/crawler$ cat testMyLog.log 
29,402 ERROR 1 
29,403 CRITICAL king I am critical message 
king&debian8:-/code/crawlers |j 


m error message 


图 4-8 导入 自 定 义 模块 


在 编程 时 ， 有 时 为 了 查看 程序 的 进度 和 参数 的 变化 ， 在 程序 中 间 插 入 了 大 量 的 print。 检 
查 完 毕 后 又 要 逐个 删除 ， 费 时 费力 。 使 用 log 后 就 简单 多 了 ， 调 试 信息 直接 保存 为 日 志文 件 
即 可 。 


“> re 模块 ( 正则 表达 式 ) 


在 编写 网 络 爬 虫 时 ， 还 有 一 些 模块 是 必 不 可 少 的 。 这 些 模块 使 用 频率 不 高 ， 如 果 不 想 深 
2t, FACE TEBIH o 
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4.4.1 re 模块 (正则 表达 式 操作 ) 


re 模块 是 文件 处 理 中 必 不 可 少 的 模块 ， 主 要 应 用 于 字符 串 的 查找 、 定 位 等 。 在 使 用 网 络 
MOAI, BERAE, re 模块 配合 urllib2 模块 也 可 以 完成 简单 的 息 虫 功能 。 先 来 看 看 
所 谓 的 正则 表达 式 ， 以 下 是 Python 支持 的 正则 表达 式 元 字符 和 语法 。 

. 字符 
: 匹配 任意 除 换行 符 \n 外 的 字符 ，.abc 匹配 abc. 
V 转 义 字符 ， 使 后 一 个 字符 改变 原来 的 意思 ，a\.bc 匹配 abe. 
[.…]: FAR (字符 类 ) 。 对 应 字符 集中 的 任意 字符 ， 第 一 个 字符 是 ^ 则 取 反 。 
a[bc]d 匹配 abd 和 acd. 

. 预定 义 字符 集 

\d: 数字 [0-9]。 

\D: EAE E [^M]. 

空白 字符 [空格 tnvf\v]。 

\S: 非 空白 字符 [As]。 

\w: 单词 字符 [a-zA-Z0-9 ]. 

W: 非 单词 字符 [A\w]。 

. 数量 词 
* “匹配 前 一 个 字符 0 或 无 限 次 。al*b 匹配 ab、alb、allb……- 
+: ”匹配 前 一 个 字符 1 或 无 限 次 。al*b 匹配 alb、al1b…… 
2: ”匹配 前 一 个 字符 0 或 1 次 。al*b 匹配 ab、alb。 
(m): 匹配 前 一 个 字符 m 次。al{3}b 匹配 alllb. 
{m,n}: 匹配 前 一 个 字符 m 至 n 次 。al{2,3}b 匹配 allb、alllb。 


. 边界 匹配 
^: 匹配 字符 串 开 头 ， 如 ^abc 匹配 以 abc 开头 的 字符 串 。 
$: ”匹配 字符 串 结尾 ， 如 xyz$ 匹 配 以 xyz 结尾 的 字符 串 。 
\A: 仅 匹 配 字符 串 开 头 ， 如 \Aabc。 
\Z: 仅 匹 配 字符 串 结尾 ， 如 XyzZ. 


Python 的 re 模块 提供 了 两 种 不 同 的 原始 操作 : match 和 search. match 是 从 字符 串 的 起 
点 开始 做 匹配 ， 而 search (perl 默认 ) 是 对 字符 串 做 任意 匹配 。 最 常用 的 几 个 re 模块 方法 如 
下 : 


€ re.compile(pattern, flags=0): 将 字符 串 形 式 的 正则 表达 式 编译 为 Pattern HR. 
€ = re.search(string[, pos[, endpos]]): 从 string 的 任意 位 置 开始 匹配 。 
€ = re.match(string[, pos[, endpos]]): 从 string 的 开头 开始 匹配 。 


EN 


@eeeeervr® E E E E E eee 
Gq 


eoe oo 上 
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re.findall(string[, pos[, endpos]]): 4A string 任意 位 置 开始 匹配 ， 返 回 一 个 列表 。 


re.finditer(string[, pos[, endpos]]): 从 string 任意 位 置 开始 匹配 ， 返 回 一 个 迭代 器 。 


般 匹 配 findall 就 可 以 了 ， 大 数量 的 匹配 还 是 使 用 finditer 比较 好 。 


简单 地 测试 一 下 ， 打 开 IDLE， 执 行 命令 : 


import re 


s = 


re. 


re. 


re 


re. 


re. 


re 


'I am python modules test for re modules" 
search('am',s) 
search('am',s).group() 


.match('am',s) 


match('I am',s) 
match('I am',s).group() 


-findall('modules',s) 
re. 


finditer('modules',s) 


for sre in re.finditer('modules',s): 


print (sre.group()) 


执行 


4.4.2 


现在 用 re 模块 和 urllib2 模块 来 做 一 个 简单 的 网 络 疏 虫 ， 例 如 看 看 最 近 的 电影 院 播放 的 今日 


结果 如 图 4-9 所 示 。 


| File Edit Shell Debug Options Window Help 


Python X 4 (v3.6.4:ddBeceb, Dec 19 2017, 06:54:40) [MSC v.1900 64 bit (AND64)] + 
on vin 

Type “copyright”, “credits” or "license()" for more information. 

>>> import re 

>>> s = 'I am python modules test for re nodules’ 

>>> re.search( an’, s) 

<_sre, SRE Match "object: span=(2, 4), match=" am’ > 

>>> re.search( an’, s). group() 


am 
>>> re.match(’ an’, s) 

>>> re.match( I am’, s) 

K.sre.SRE Match object: span=(0, 4), match-'I am’> 
dt: re. match( I an’, s).group() 


x» re.findall( modules’, s) 
U'modules', 'modules'] 
>>> re.finditer( modules’, s) 
<callable_iterator object at 0x0000000002EC73C8> 
>>> for sre in re.finditer( nodules’, s): 
print (sre. group) 


nodules 
nodules 
»» 


图 4-9 re 匹配 字符 串 


re 模块 实战 


[un 


影 。 先 找 找 最 近 的 影院 ， 就 以 金 揭 影院 为 例 。 找 到 影院 页 面 htp:/www.wandacinemas.com/， 先 使 用 
urllib2 模块 抓 取 整个 网 页 ， 再 使 用 re 模块 获取 影视 信息 。 


【示例 4-7】 编写 crawlWithRe.py, Putty 连接 到 Linux， 执 行 命令 : 


cd 


code/crawler 
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vi crawlWithRe.py 


crawIWithRe.py 的 代码 如 下 : 
1 #!/usr/bin/env python 
2 #-*- coding: utf-8 —*— 
3 author = 'hstking hstking@hotmail.com' 
4 
5 import re 
6 import urllib.request 
7 import codecs 
8 import time 
9 
10 class Todaymovie (object) : 
11 "获取 金 逸 影院 当日 影视 ''' 
12 def init (self): 
13 self.url = 'http://www.wandacinemas.com/' 
14 self.timeout = 5 
15 self.fileName = 'wandaMovie.txt' 
16 "内 部 变量 定义 完毕 '"" 
17. self.getmovieInfo() 
18 
19 def getmovieInfo (self): 
20 response - 
urllib.request.urlopen(self.url,timeout-self.timeout) 
21 result = response.read().decode('utf-8') 
22 pattern - re.compile('«span class-"icon play" 
title=".*2">') 
23 movieList = pattern. findall (result) 
24 movieTitleList = map(lambda x:x.split('"') [3], movieList) 
25 # 使 用 map 过 滤 出 电影 标题 
26 with codecs.open(self.fileName, 'w', 'utf-8') as fp: 
27 print ("Today is %s \r\n" %time.strftime ("%Y-%m-%d") ) 
28 fp.write("Today is $s \r\n" $time.strftime ("Y-%m- 
Sd") ) 
29 for movie in movieTitleList: 
30 print ("%s\r\n" %movie) 
31 fp.write("%s \r\n" %movie) 
32 
33 
34 ic jets = 1 pain “i 
35 tm Todaymovie () 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 crawlWithRe.py. crawlWithRe.py 使 用 urllib2 
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模块 获取 URL 的 返回 信息 ， 然 后 使 用 re 模块 从 结果 中 过 滤 得 到 当日 电影 的 列表 ， 最 后 显示 
到 屏幕 上 。 执 行 命令 : 


python3 crawlWithRe.py 


得 到 的 结果 如 图 4-10 所 示 。 


EP king@debian8: ~/code/crawler 


king@debian8:~/code/crawler$ python3 crawlWithRe.py 
Today is 2018-01-21 


图 4-10. 3& fT crawlWithRe.py 


Fr ANB AE IARE d, pL? P RE TEA T E IRL AR Y. REER P A AR f] 
H. BRODET. SERRAR OIN fS, PARTE AT WAS. GSR nif. e 
取 内 容 多 一 点 的 ， 按 照 这 个 方法 写 就 很 痛苦 了 ， 简 单 点 的 办 法 就 是 使 用 爬虫 框架 。 


lD 其 他 有 用 模块 


4.5.1 sys 模块 (系统 参数 获取 ) 

sys 模块 ， 顾 名 思 义 就 是 跟 系统 相关 的 模块 ， 这 个 模块 的 函数 方法 不 多 。 最 常用 的 就 只 
有 两 个 。sys.argv 和 sys.exit。sys.argv 返回 一 个 列表 ， 包 含 了 所 有 的 命令 行 参数 ，sys.exit W 
是 退出 程序 ， 再 就 是 可 以 返回 当前 系统 平台 。 这 个 模块 比较 简单 ， 稍 作 了 解 即 可 。 


【示例 4-8] Aij testSys.py, 1]7F Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
vi testSys.py 


testSys.py 的 代码 如 下 : 
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1 #!/usr/bin/env python3 
2 #-*- coding: utf-8 -*- 


3 author = 'hstking hst_king@hotmail.com' 
4 
5 import sys 
6 
7 class ShowSysModule (object) : 
8 1 这 个 类 用 于 展示 python 标准 库 中 的 sys 模块 ''' 
9 def init (self): 
10 print (‘sys 模块 最 常用 的 功能 就 是 获取 程序 的 参数 ' ) 
T1 self.getArg() 
12 Print('" 其 次 就 是 获取 当前 的 系统 平台 ') 
13 self.getOs() 
14 
15 def getArg(self): 
16 print ('" 开 始 获取 参数 的 个 数 ') 
aimi Print(' 当 前 参数 有 sd 个 ' $1en(sys.argv)) 
18 print (' 这 些 参数 分 别 是 $s' tsys.argv) 
19 
20 def getOs (self): 
21 print ('sys.platform 返回 值 对 应 的 平台 : ' ) 
22 print ('System\t\t\tPlatform') 
23 print ('Linux\t\t\tlinux2') 
24 print ('Windows\t\t\twin32') 
25 print ('Cygwin\t\t\tcygwin') 
26 print ('Mac OS X\t\tdarwin') 
27 print('OS/2NtNtNtos2') 
28 print ('0S/2 EMX\t\tos2emx') 
29 print ('RiscOS\t\t\triscos') 
30 print ('AtheOS\t\t\tatheos') 
aL print('\n') 
32 print (' 当 前 的 系统 为 $s' $sys.platform) 
33 
34 if name ==' main ': 
35 ssm = ShowSysModule () 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wdq 保存 testSys.py. testSys.py 顾名思义 用 于 测试 sys 模 
块 。 该 脚本 将 获取 系统 平台 、Python 脚本 参数 的 个 数 、 参 数 的 值 等 信息 。 执 行 命令 : 
python testSys.py 12345 


得 到 的 结果 如 图 4-11 所 示 。 


140 


4.5.2 
y 

e 

e 

e 

e 


sys 模块 用 处 不 多 ， 但 也 需要 熟悉 。 顾 名 思 义 ， 它 的 主要 作用 就 是 返回 系统 信息 。 


图 4-11 运行 testSys.py 


time 模块 〈 获 取 时 间 信 息 ) 


Python 中 的 time 模块 是 跟 时 间 相关 的 模块 。 这 个 模块 用 得 最 多 的 地 方 可 能 就 是 计时 器 


。 本 节 


只 介绍 这 个 模块 最 常用 的 几 个 函数 。 


time.time(): 返回 当前 的 时 间 蕉 。 


time.localtime([secs]): 默认 将 当前 时 间 戳 转换 成 当前 时 区 的 struct time. 


time.sleep(secs): 计时 器 。 


Time.strftime(format[, t]): 把 一 个 struct time 转换 成 格式 化 的 时 间 字 符 串 。 这 个 函数 


支持 的 格式 符号 如 表 4-1 所 示 。 
表 4-1 时 间 字 符 串 支 持 的 格式 符号 


BX 
本 地 Clocale) 简化 星期 名 称 


本 地 完整 星期 名 称 


本 地 简化 月 份 名 称 


本 地 完整 月 份 名 称 
本 地 相应 的 日 期 和 时 间 表 示 


一 个 月 中 的 第 几 天 (01 ~31) 
一 天 中 的 第 几 个 小 时 (24 小 时 制 ，00 ~ 23) 


第 几 个 小 时 12 小 时 制 ，01 ~ 12) 


一 年 中 的 第 几 天 (001 ~ 366) 


月 份 (01 ~ 12) 


分 钟 数 (00~ 59) 


本 地 am 或 者 pm 的 响应 符 


%U 


秒 (01~61) 
一 年 中 的 星期 数 
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一 个 星期 中 的 第 几 天 〈0~ 6，0 是 星期 天 ) 


和 %U 基本 相同 ， 不 同 的 是 %W 以 星期 一 为 一 个 星期 的 开始 


本 地 相应 日 期 
本 地 相应 时 间 
%y 简化 的 年 份 C00 -99) 
%Y 完整 的 年 份 
%Z 时 区 的 名 字 《〈 如 果 不 存在 为 空 字符 ) 
969 WEE 


备注 : 在 使 用 stptime( BAH, Vp WA 配合 使 用 才 有 效 。%S 中 的 秒 是 0-61， 头 年 中 的 秒 占 两 
秒 。 在 使 用 strtime() 函 数 时 ， 只 有 当年 中 的 周 数 和 天 数 被 确定 时 ，%U 和 %W 才 被 计算 。 


简单 地 测试 一 下 ， 在 Windows 中 打开 IDLE， 执 行 命令 : 
import time 

time.time() 

time.localtime() 

for i in range(5): 

time.sleep(1) 

print i 

time.strftime('$Y-$m-$d $X' ,time.localtime()) 


执行 结果 如 图 4-12 所 示 。 


File Edit Shell Debug Options Window Help 
Python 3.6.4 (v3.6.4:ddBeceb, Dec 19 2017, 06:54:40) [MSC v.1900 64 bit (AMD64)] 
on win32 

Type “copyright”, “credits” or "license()" for more information. 

»» tine 

>> time, tine () 

1516588288. 2172394 

>>> time. localtime () 

time.struct time(tm year-2018, tm mon-l, tm mday-22, tmhour=10, tm min-3l, tns 
ec=35, tm wday-0, tm yday-22, tm_isdst=0) 

> in range(5): 

tine. sleep(1) 

print (i) 


>> time.strftime( XY-Wm-Xd SK", time. localtime()) 
* 2018-01-22 10:32:23 


4-12 show time module 


【示例 4-9】 做 个 简单 的 程序 ， 实 验 一 下 time 模块 。 编 写 testTime.py, FFF Putty 连接 到 
Linux， 执 行 命令 : 


cd code/crawler 
vi testTime.py 


testTime.py 的 代码 如 下 : 


1 #!/usr/bin/env python 
2 $-*- coding: utf-8 -*- 
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. author = 'hstking hst_king@hotmail.com' 


from myLog import MyLog 


S 
4 
3 
6 import time 
7 
8 ''' 这 里 的 myLog 是 自 建 的 模块 ， 处 于 该 文件 的 同一 目录 下 ''' 
9 


10 class TestTime (object): 


11 def _ init (self): 

12 self.log = MyLog() 

156] self.testTime() 

14 self.testLocaltime() 

UG) self.testSleep () 

16 self.testStrftime() 

sirj 

18 def testTime (self): 

19 self.1og.info(' 开 始 测试 time.time () 函数 ') 

20 print (' 当 前 时 间 玲 为 : time.time() = $f' %time.time()) 

21 print (' 这 里 返回 的 是 一 个 浮 点 型 的 数值 ， 它 是 从 1970 纪元 后 经 过 的 浮 点 秒 数 ') 

22 print ('\n') 

23 

24 def testLocaltime (self): 

25 self.10g.info(' 开 始 测试 time.1localtime () 函数 ') 

26 print (' 当 前 本 地 时 间 为 : nowTime= $s' S%time.strftime('%Y-%m-%d 
$H:9$M$S')) 

27 print (' 这 里 返回 的 是 一 个 struct time 结构 的 元 组 ') 

28 print('\n') 

29 

30 def testSleep(self): 

31 self.1og.info(' 开 始 测试 time.sleep () 函数 ') 

32 print (' 这 是 个 计时 器 : time.sleep (5) ') 

33 print (' 闭 上 了 眼睛 数 上 5 秒 就 可 以 了 ') 

34 time.sleep (5) 

35 print('\n') 

36 

37 def testStrftime (self): 

38 self.1o0g.info(' 开 始 测试 time .strftime () 函数 ') 

39 print (' 这 个 函数 返回 的 是 一 个 格式 化 的 时 间 ') 

40 print('time.strftime ("%%Y-%%m-%%d $$X",time.localtime()) = $s' 
Stime.strftime ("SY-%m-%d %X",time.localtime())) 

41 print ('\n') 

42 

43 
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44 if hame == " main "s 
45 tt = TestTime() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wq， 保 存 testTime.py. testTime.py 测试 了 time 模块 的 
定时 器 功能 ， 并 显示 当前 时 间 。 执 行 命令 : 


python testTime.py 


得 到 的 结果 如 图 4-13 所 示 。 


iB king@debian8: ~/code/crawler 


king@debian8:~/code/crawler$ python3 testTime.py 
2018-01-22 10:48:05,774 INFO king 开始 测试 rime.time() 函 数 
当前 时 间 惟 为 :time.time() = 1516589285.774577 

这 里 返回 的 是 一 个 浮 点 型 的 数值 ， 它 是 从 1970 纪 元 后 经 过 的 浮 点 秒 数 


2018-01-22 10:48:05,774 INFO king FF f MK cime.localtime () HM 
当前 本 地 时 间 为 : nowTime= 2018-01-22 10:4805 
这 里 返回 的 是 一 个 struct_time 结 构 的 元 组 


2018-01-22 10:48:05,775 INFO king 开始 测试 ime.sleep1() 函 数 
这 是 个 计时 器 : time.sleep(5) 
闭 上 眼睛 数 上 5 秒 就 可 以 了 


2018-01-22 10:48:10,781 INFO king 开始 测试 ime.strftime() 函 数 
这 个 函数 返回 的 是 一 个 格式 化 的 时 间 


time .strftime ("tY-tm-td %X",time.localtime()) = 2018-01-22 10:48:10 


king@debian8:~/code/crawler$ 


图 4-13 运行 testTime.py 
time 模块 还 有 很 多 函数 ， 最 常用 的 还 是 计时 器 ， 其 次 就 是 做 时 间 玲 了 。 


4.6 本 章 小 结 


如 果 只 想 大 致 介 绍 Python 网 络 息 虫 ， 熟 悉 了 这 些 模块 也 就 差不多 了 。 即 使 企 虫 中 可 能 还 
需要 其 他 模块 ， 也 无 须 担心 ， 大 多 也 只 是 需要 模块 中 的 某 个 函数 。 完 全 可 以 把 它 当 成 函数 使 
用 ， 这 样 就 简单 多 了 。Python 的 标准 模块 差不多 有 300 个 。 熟 悉 所 有 的 模块 既 没 必要 ， 也 不 
可 能 ， 用 到 哪个 模块 就 熟悉 哪个 模块 ， 这 样 就 可 以 了 。 
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Fd £&& E ha (6) Jet AS MD ALI A PR K as ERU PITE. SEL Be LU 71 1 PARE 
urllib2 请 求 网 页 得 到 结果 ， 然 后 使 用 re 取得 所 需 的 内 容 ， 但 网 站 不 可 能 都 是 统一 的 ， 都 有 自 
己 的 特点 ， 每 个 页 面 都 可 能 需要 进行 微调 。 如 果 所 有 的 爬虫 都 这 样 写 ， 工 作 量 未 免 太 大 了 
点 ， 所 以 才 有 了 疏 虫 框架 。 

Python 下 的 爬虫 框架 不 少 ， 最 简单 的 就 要 数 Scrapy 了 。 首 先 它 的 资料 比较 全 ， 网 上 的 指 
南 、 教 程 也 比较 多 。 其 次 它 够 简单 ， 只 要 按 需 填空 即 可 ， 简 简单 单 地 就 能 获取 所 需 的 内 容 ， 
非常 方便 。 


5.1 安装 Scrapy 


Scrapy 的 官网 是 http://scrapy.org/， 目 前 版 本 是 Scrapy 1.5. Scrapy 的 安装 方式 很 多 ， 官 
网 上 就 给 出 了 4 种 ， 即 PyPI, Conda. APT. Source 安装 。 


5.1.1 Windows 下 安装 Scrapy 环境 


Windows 下 安装 Scrapy 除了 不 能 使 用 APT 安装 外 ， 其 他 的 三 种 方法 都 是 可 以 的 。 这 里 
选择 最 简单 的 PyPI 安装 ， 也 就 是 pip 安装 。pip 安装 Scrapy 的 前 提 条 件 是 已 经 安装 好 了 
Python， 并 配置 好 了 pip 源 。 如 果 这 些 条 件 已 经 具备 ， 安 装 Scrapy 只 需要 打开 cmd， 执 行 一 
条 命令 而 已 。 打 开 cmd 并 执行 命令 : 

pip install scrapy 


执行 结果 如 图 5-1 所 示 。 


rud EL. 


Microsoft Windows [版 本 10.0. 16299. 192] ^ 
(c) 2017 Microsoft Corporation。 保 留 所 有 权利 。 


:\Users\king>pip install scrapy 
ollecting scrapy 

Downloading http://pypi. doubanio. com/packages/a8/96/3affellcf53a5d210553691911 
5b453479038bb 486173872 4ce433b83f fScrapy-1. 4. 0-py2. py3-none-any.whl (248kb) 
| 102kB 3.3NB/s eta 0: 

| 112kB 3. OMB/s eta 0:00 

| 122kB 3. 7NB/s eta 0:0 

| 133kB 3. 4MB/s eta 0 

| 143kB 4. 2NB/s eta 

| 153kB 4. OMB/s eta 

| 163kB 5.2NB/s et 

| 174kB 5. MB/s 

| 184kB 5. 5MB/s 

| 194kB 6. OMB/ 

| 204kB 6. 5M 


'ollecting Twisted» 
Downloading htt 


. THB/s eta 0: 
. 6NB/s 
. SMB/s 


图 5-1 使 用 pip 安装 Scrapy 


Windows 下 安装 Scrapy 可 能 会 遇 到 依赖 包 Twisted 无 法 安装 的 问题 (一般 都 没什么 问 
JB) 。 如 果实 在 安装 不 了 ， 可 以 选择 安装 Anaconda 后 使 用 Conda 包 管 理工 a iiss Scrapy 
for Python 3. 


5.1.2. Linux 下 安装 Scrapy 


Ño Linux 下 默认 安装 


Linux 下 也 只 能 采取 pip 的 安装 方式 来 安装 Scrapy， 只 是 要 稍 加 
f Python 2 和 Python 3。 因此 安装 命令 需要 稍微 修改 一 下 ， 执 行 命令 : 


python3 -m pip install scrapy 


执行 结果 如 图 5-2 所 示 。 


5-2 ”使 用 apt-get 安装 Scrapy 
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查看 安装 的 Scrapy 版 本 ， 如 图 5-3 所 示 。 


EP king@debians: ~ 


kingêdebian8:~$ scrapy 
Scrapy 1.5.0 - no active project 


Usage: 
scrapy «command» [options] [args] 


Available commands: 
bench Run quick benchmark test 
fetch Fetch a URL using the Scrapy downloader 
genspider Generate new spider using pre-defined templates 
runspider Run a self-contained spider (without creating a project) 
settings Get settings values 
shell Interactive scraping console 
startproject Create new project 
version Print Scrapy version 
view Open URL in browser, as seen by Scrapy 


{ more ] More commands available when run from project directory 


Use "scrapy «command» -h" to see more info about a command 
kingédebianB:-$ 
kingédebian8:-$ 


5-3. Scrapy 版 本 


现在 Scrapy 已 经 安装 完毕 ， 可 以 使 用 了 o 


5.1.3 vim 编辑 器 

本 章 的 Scrapy 项 目 主要 是 在 Linux 下 运行 。 目 前 在 Linux 下 最 强大 的 IDE 还 是 Eclipse， 
但 最 方便 的 却 是 vim Cvim 是 vi 的 强化 版 ， 而 vi 是 所 有 Linux 发 行 版 本 都 默认 安装 的 ) 。 

vim 是 一 个 文本 编辑 器 ， 在 上 手 时 可 能 稍微 有 点 麻烦 。 它 有 一 些 快 捷 键 和 命令 是 必须 要 
记 住 的 《实际 上 只 需要 记 住 常 用 的 几 个 操作 就 可 以 了 ， 比 如 定位 、 复 制 、 粘 贴 、 删 除 、 蔡 
Ee ) ， 可 以 边 使 用 边 记忆 。 等 熟悉 了 vim 的 操作 方法 ， 就 会 发 现 文本 编辑 是 如 此 简单 。 
对 不 同 的 编程 语言 配合 不 同 的 插件 ， 可 以 将 vim 配置 成 为 一 个 专属 的 IDE. 

vim 安装 非常 简单 ， 使 用 Putty 登录 Linux fa, VA root 用 户 执行 命令 : 


apt-get install vim 


vim 的 配置 文件 是 /etc/vim/vimre Fil/home/‘user’/.vim/vimre (对 于 用 户 king 来 说 就 是 
/home/king/.vim/vimre) 。 前 者 是 系统 配置 文件 ， 后 者 是 用 户 的 配置 文件 。 两 者 相 冲 突 ， 则 以 
后 者 为 主 〈 这 个 有 点 类 似 于 编程 语言 中 的 全 局 变量 与 函数 变量 同名 时 作用 域 的 关系 ) 。 

vim 的 配置 项 很 多 ， 这 里 不 一 一 列举 ， 为 了 编写 Python 程序 方便 ， 这 里 只 修改 最 简单 的 
设置 。 笔 者 的 vimre 文件 如 下 : 

1 set tabstop=4 


2 set number 
3 set noexpandtab 


第 1 行 的 设置 是 将 tabstop 设置 成 4 个 空格 ， 第 2 行 是 显示 行 号 ， 第 3 行 不 将 tabstop 转 
换 成 空格 。 

如 果 经 常 在 Linux 写 Python 程序 ， 可 以 到 github 上 下 载 vim 变 身 Python IDE 的 配置 文 
件 。 仔 细 调 试 一 下 ，vim IDE 不 比 Windows 下 的 Python IDE 差 。 
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2.4 Scrapy 选择 器 XPath 和 CSS 


在 使 用 Scrapy ERAGE m Ae TAE Scrapy (ETE. EMMA MAR, Meee 
虫 原理 就 是 获取 网 页 返回 ， 然 后 提取 所 需 的 内 容 。 获 取 网 页 返回 很 简单 ， 重 点 就 在 提取 内 容 
上 。 如 何 提 取 ? 使 用 Python 的 re 模块 ， 前 面 的 章节 中 已 经 尝试 过 了 。 简 单 网 页 用 re 模块 提 
取 可 以 将 就 复杂 一 点 的 提取 内 容 就 麻烦 了 。 不 是 说 完全 不 可 以 ,但 是 有 简单 的 方法 又 何必 
去 自己 编写 新 方法 呢 ? 

Scrapy 提取 数据 有 自己 的 一 套 机 制 。 它 们 被 称 作 选择 器 (seletors) ， 通 过 特定 的 XPath 
或 者 CSS 表达 式 来 “选择 ”HTML 文件 中 的 某 个 部 分 。 

XPath 是 一 门 用 来 在 XML 文件 中 选择 节点 的 语言 ， 也 可 以 用 在 HTML 上 。CSS 是 一 门 
将 HTML 文档 样式 化 的 语言 。 选 择 器 由 它 定 义 ， 并 与 特定 的 HTML 元 素 的 样式 相关 联 。 

Scrapy 的 选择 器 构建 于 lxml 库 之 上 ， 这 意味 着 它们 在 速度 和 解析 准确 性 上 非常 相似 ， 所 
以 看 你 喜欢 哪 种 选择 器 就 使 用 哪 种 吧 ， 它 们 从 效率 上 看 完全 没有 区 别 。 


5.2.1 XPath 选择 器 

XPath 是 一 门 在 XML 文档 中 查找 信息 的 语言 。XPath 可 用 来 在 XML 文档 中 对 元 素 和 
属性 进行 遍历 。XPath 含有 超过 100 个 内 建 的 函数 。 这 些 函数 用 于 字符 串 值 、 数 值 、 日 期 和 
时 间 比 较 、 节 点 和 QName 处 理 、 序 列 处 理 、 逻 辑 值 等 。 在 网 络 怜 虫 中 只 需要 利用 XPath 
“采集 ”数据 ， 如 果 想 深入 研究 ， 可 参考 www.w3school.com.cn 中 的 XPath 教程 。 

在 XPath 中 ， 有 7 种 类 型 的 节点 : 元 素 、 属 性 、 文 本 、 命 名 空间 、 处 理 指令 、 注 释 以 及 
文档 节点 或 称 为 根 节点 ) 。XML 文档 是 被 作为 节点 树 来 对 待 的 。 树 的 根 被 称 为 文档 节点 或 
者 根 节点 。 


【示例 5-1】 做 个 简单 的 XML 文件 ， 以 便 演示 。 执 行 命令 : 


cd 

mkdir scrapy 

cd code/scrapy 

mkdir -pv scrapy/seletors 
cd scrapy/seletors 


vi superHero.xml 


在 这 里 创建 了 scrapy 的 工作 目录 scrapyProject， 并 在 该 目录 下 创建 了 选择 器 的 工作 目录 
seletors。 在 该 目录 下 创建 选择 器 的 演示 文件 superHero.xml。superHero.xml 的 代码 如 下 : 


1 <superhero> 


2 <class> 

3 <name lang="en">Tony Stark </name> 
4 <alias>Iron Man </alias> 

5 <sex>male </sex> 
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6 <birthday>1969 </birthday> 

7 <age>47 </age> 

8 </class> 

9 <class> 

10 <name lang="en">Peter Benjamin Parker </name> 
TL <alias>Spider Man </alias> 

12 <sex>male </sex> 

13 <birthday>unknow </birthday> 

14 <age>unknown </age> 


15 </class> 
16 <class> 


aly) <name lang="en">Steven Rogers </name> 
18 <alias>Captain America </alias> 

T9 <sex>male </sex> 

20 <birthday>19200704 </birthday> 

21 <age>96 </age> 


22 </class> 
23 </superhero> 


很 简单 的 一 个 XML 文件 ， 在 浏览 器 中 打开 这 个 文件 ， 如 图 5-4 所 示 。 


This XML file does not appear to have any style information associated with it. 


v <superhero> 
¥<class> 
‘name lang=“en">Tony St ark</name> 
alias>Iron Man</alias> 
<sex>male</sex> 
<birthday>1969</birthday> 
<age>4?</age> 
</class> 
v «class? 
(name lang="en">Peter Benjamin Parker</nane> 
<alias>Spider Man</alias> 
<sex>male</sex> 
‘birthday unknow</birthday> 
<age>unknown</age> 
</class> 
v class? 
<name lang="en">Steven Rogers</name> 
‘alias>Captain America</alias> 
<sex>male</sex> 
<birthday>19200704</birthday> 
<age>96</age> 
</class> 
</superhero> 


5-4 选择 器 演示 文件 superHero.xml 
后 面 的 选择 器 都 以 该 文件 为 示例 。 在 superHero.xml 中 ，<superhero> 是 文档 节点 ， 


<alias>Iron Man</alias> 是 元 素 节点 ，lang="en" 是 属性 节点 。 

从 节点 的 关系 来 看 ， 第 一 个 Class 节点 是 name. alias. sex. birthday. age 节点 的 父 节点 
(Parent) 。 反 过 来 说 ，name、alias、sex、birthday、age 节点 是 第 一 个 Class 节点 的 子 节点 
(Childer) 。name、alias、sex、birthday、age 节点 之 间 互 为 同胞 节点 Csibling) 。 这 只 是 个 
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最 简单 的 例子 ， 如 果 节 点 的 “深度 ”足够 ， 还 会 有 先辈 节点 (Ancestor) 和 后 代 节 点 


(Descendant) 。 


XPath 使 用 路 径 表 达 式 在 XML 文档 中 选取 节点 。 表 5-1 中 列 出 了 最 常用 的 路 径 表 达 式 。 
表 5-1 路 径 表 达 式 


表达 式 描述 

nodeName 选取 此 节点 的 所 有 子 节点 

/ 从 根 节点 选取 

I 从 匹配 选择 的 当前 节点 选择 文档 中 的 节点 ， 不 考虑 它们 的 位 置 
选取 当前 节点 

选取 当前 节点 的 父 节点 

@ 选取 属性 

匹配 任何 元 素 节点 

@* 匹配 任何 属性 节点 

Node() 匹配 任何 类 型 的 节点 


下 面 用 XPath 选择 器 来 “采集 ”XML 文件 中 所 需 的 内 容 ， 先 做 好 准备 工作 。 执 行 命令 : 


python3 

from scrapt.selector import Selector 
with open('./superHero.xml','r') as fp: 
body = fp.read() 

Selector (text-body).xpath('/*').extract() 


首先 启动 Python, A scrapy.selector 模块 中 的 Selector, 17JT superHero.xml 文件 ， 并 将 
其 内 容 写 入 到 body 变量 中 ， 最 后 使 用 XPath 选择 器 显示 superHero.xml 文件 中 的 所 有 内 容 。 
执行 结果 如 图 5-5 所 示 。 


a) king@debian8: ~/code/crawler script E n x 
Python 3.4.2 (default, Oct 8 2014, 10:45:20) ^ 
[GCC 4 on linux 


Type "help", "copyright", "credits" or "license" for more information. 
>>> from scrapy.selector import Selector 
>>> with open('superHero.xmi', 'r') as fp: 

body = fp.read() 


>>> body 

‘<superhero>\n<class>\n\t<name lang="en"> 
jjalias>\n\t<sex>male </sex>\n\t<b: le 
Jass>\n<class>\n\t<name lang="en">Peter B rker </name>\n\t<alias>Spiddr 
Man </alias>\n\t<sex>male </sex>\n\t<bir ow </birthday>\n\t<age>unkndw 
|n </age>\n</class>\n<class>\n\t<name lang="en">Steven Roge: /name>\n\t<alias>c 


ptain America </alias>\n\t<sex>male </sex>\n\t<birthday>19200704 </birthday>\n\ 
iicaga396-</ages\nc/alaass\n /superhera>\n' 


>>> Selector (text=body) .xpath('/*') .extract() 
| 
s»Iron Man </alias>\n\t<sex>male </sex: 
</age>\n</class>\n<class>\n\t<n 


Stark </name>\n\t<alias>Iron Man |< 


hday>1969 </birthday>\n\t<age>4 
Parker </name>\n\t| 
</birthday>\n 
t<age>unknown </age>\n</c ne 1 ogers «/name 
\n\t n y>19200704 < 
Ease </age>\n</class>\n</superhero></body></html>"] 
>>> v 


5-5 XPath 选择 器 准备 工作 
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E= 选择 器 在 从 根 节 点 选择 所 有 节点 时 得 到 的 数据 和 直接 从 文件 中 读 取 的 数据 有 点 不 一 样 。 
因为 示例 文件 并 不 是 一 个 标准 的 html 文件 ， 所 以 在 选择 器 中 被 自动 添加 了 <html> 和 
<body> 标 签 。 也 就 是 说 在 选择 器 看 来 ， 示例 文件 的 根 节点 并 不 是 <superhero>， 而 是 
<html>。 


好 了 ， 现 在 来 看 如 何 使 用 XPath 选择 器 “收集 ”数据 ， 如 图 5-6 所 示 。 


[>>> print ("采集 superHero.xml 中 第 一 个 class 的 内 容 ') 
采集 superHero.xml 中 第 一 个 class 的 内 容 


>>> = 5 - 
IO AUELITUAEIITUEEI NAVI IEEE ITI Er E EYE MN 


4scx»malc </ocu>\n\tcbirthday>1969 </birthday>\n\t<age>17 </age>\n</elass>"} 
>>> 

>>> print (' 采 集 superHero.xml 中 最 后 一 个 class 的 内 容 ') 

| 采集 superHero.xmi 中 最 后 一 个 class 的 内 容 

>>> Selector (text=body) .xpachl' /html /body/superhero/class{lest()]") extract 
Pe CREER RE m\ccname lang-"en"»Steven EE E: name» nNUca. E America </ 


Jalias>\n\t<sex>male </sex>\n\t<birthday>19200704 </birthday>\n\t<age>96 </age>\n 


集 superHero.xml 中 name 属 性 为 en 的 
>>> z : ren") 
[u'<name lang="en">Tony Stark </name>', u'«name lang-"en"»Peter Benjamin Parker 
', ut<name lang="en">Steven Rogers «/name»'] 


>>> print (' 采 集 superHero.xmi 中 倒数 第 二 个 class 的 name 节 点 的 文本 ') 
superHero.xml 中 倒 歼 第 二 个 class 的 name 节 点 的 文本 

>>> Sslsctor(texcebody) xpath, “(ppm (pody/ supezhero/class {last =i) /name/text()' 

) -extract () 

[u'Peter Benjamin Parker '] 

>>> E 

>>> print (' U FERIERE) 

ELT ax HE CREE ERR 

>>> subBodv = Selector (textebodv).xpath('/html/bodv/superhero/class[last()-1]'). 

extr: 

>>> subBody 

[u'<class>\n\t<name lang="en">Peter Benjamin Parker </name>\n\t<alias>Spider Man 

</alias>\n\t<sex>male </sex>\n\t<birthday>unknow </birthday>\n\t<age>unknown </ 

lage>\n</class>"] 

>>> 


是 


图 5-6 XPath 选择 器 收集 数据 


XPath 中 最 常用 的 几 个 方法 就 是 如 此 了 ， 非 常 简单 。“ 隐 藏 ”得 不 太 深 的 数据 直接 用 
XPath 选择 器 挑选 数据 就 可 以 了 。 复 杂 一 点 的 ， 用 配套 选择 就 能 很 方便 地 搞定 。 只 要 有 点 耐 
心 ， 再 复杂 的 数据 也 可 以 分 离 出 来 。 


5.2.2 CSS 选择 器 

CSS， 看 起 来 很 眼熟 是 不 是 ? 没 错 ， 就 是 你 已 经 知道 的 那个 CSS 一 一 层 合 样式 表 。CSS 
规则 由 两 个 主要 的 部 分 构成 : 选择 器 以 及 一 条 或 多 条 声明 。 

selector (declarationl; declaration2; ... declarationN } 

CSS 是 网 页 代码 中 非常 重要 的 一 环 ， 即 使 不 是 专业 的 Web 从 业 人 员 ， 也 有 必要 认真 学 习 
一 下 。 这 里 只 简略 介绍 一 下 与 候 虫 密切 相关 的 选择 器 ， 表 5-2 中 列 出 了 CSS 经 常 使 用 的 几 个 
选择 器 。 
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表 5-2 CSS 选择 器 


值 


说 明 


class intro 选择 class=“intro” 的 所 有 元 素 
Hid #firstname XE id= “firstname” MIATA TCR 
* * 选择 所 有 元 素 


选择 所 有 < 元素 

选择 所 有 <div> 元 素 和 所 有 <p> 元 素 
element element 选择 <div> 元 素 内 部 的 所 有 p 元 素 
[attribute] 选择 带 有 target 属性 的 所 有 元 素 


与 XPath 选择 器 相 比较 ，CSS 选择 器 稍微 复杂 一 点 ， 但 其 强大 的 功能 弥补 了 这 点 缺陷 。 
下 面 就 来 试验 一 下 CSS 选择 器 如 何 收集 数据 ， 如 图 5-7 所 示 。 


>>> 
{u'<class>\n\t<name lang="en">Tony Stark </name>\n\t<alias>Iron Man </alias>\n\t 
<sex>male </sex>\n\t<birthday>1969 </birthday>\n\t<age>47 </age>\n</class>', u'« 
|class>\n\t<name lang="en">Peter Benjamin Parker </name>\n\t<alias>Spider Man </a 
lias»inVccsex»male </sex>\n\t<birthday>unknow </birthday>\n\t<age>unknown </age> 
\n</class>', u'<class>\n\t<name lang="en">Steven Rogers </name>\n\t<alias>Captai 
|n America </alias>\n\t<sex>male </sex>\n\t<birthday>19200704 </birthday>\n\t<age 
[>26 </age>\n</class>'] 


>>> Selector (text=body) .css('class name').extract() 

[c SS LSS TSS TET Sane eee Ting- ren" Peter Benjamin Parker 
|X/name»', u'«name lang="en">Steven Rogers «/name»'] 

[>>> 

[>>> Selector (text=body) .css('class name').extract() [0] 

>>> Selector (text=body) .css (' [1ang] ') extract () [0] 

ju'<name lang="en">Tony Stark </name>' 

>>> Selector (text=body) .css(' [lang="en"]") .extract 
ec 
</name>', u'«name lang="en">Steven Rogers «/name»'] 

SS 


图 5-7 CSS 选择 器 收集 数据 


因为 CSS 选择 器 和 XPath 选择 器 都 可 以 翌 套 使 用 ， 所 以 它们 可 以 互相 嵌 套 ， 这 样 一 来 收 
集 数 据 会 更 加 方便 。 


5.2.3 ”其 他 选择 器 


XPath 选择 器 还 有 一 个 .re() 方 法 ， 用 于 通过 正则 表达 式 来 提取 数据 。 然 而 ， 不 同 于 使 
用 .xpath(0) 或 者 .css() 方 法 ，.re() 方 法 返回 unicode 字符 串 的 列表 ， 所 以 无 法 构造 嵌 套 式 的 .re0 调 
用 。 使 用 方法 如 图 5-8 所 示 。 


5» 
>>> Selector (text=body) .xpath (' /htm1/body/superhero/class[1]').re('».*?«) a 
[u'>Tony Stark «', u'»Iron Man «', u'>male «', u'>1969 «', u'>47 «'] | 
>>> [] 


5-8 re 选择 器 收集 数据 
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这 种 方法 并 不 常用 。 个 人 觉得 还 不 如 在 程序 中 添加 代码 ， 直 接 用 re 模块 方便 。 
因为 Scrapy 选择 器 建 于 xm 之 上 ， 所 以 它 也 支持 一 些 EXSLT 扩展 ， 但 这 里 就 不 做 说 明 
了 ， 有 兴趣 的 读者 可 以 自行 Google。 


5.3 Scrapy IErBzclX— : 今日 影视 


还 记得 前 面 章节 中 用 re 模块 操作 爬虫 ， 在 金 逸 影 城 的 网 站 中 怜 取 当 日 影视 信息 的 例子 
吗 ? 实际 上 用 Scrapy 来 怜 取 会 简单 得 多 。 打 个 比方 ， 前 面 章节 中 使 用 re BURMA 
相当 于 是 做 作文 ， 而 使 用 Scrapy 来 息 取 就 相当 于 做 填空 题 ， 只 需要 把 相应 的 要 求 填 入 空白 框 
里 就 可 以 了 。 


5.3.1 创建 Scrapy 项 目 


似乎 所 有 的 框架 ， 开 始 的 第 一 步 都 是 从 创建 项 目 开 始 的 ，Scrapy 也 不 例外 。 在 这 之 前 要 
说 明 的 是 Scrapy 项 目的 创建 、 配 置 、 运 行 …… 默 认 都 是 在 终端 下 操作 的 。 不 要 觉得 很 难 ， 其 
实 它 真 的 非常 简单 ， 做 填空 题 而 已 。 如 果实 在 是 无 法 接受 ， 也 可 以 花 点 心思 配置 好 Eclipse, 
在 这 个 万 能 IDE 下 操作 。 个 人 推荐 还 是 在 终端 操作 比较 好 ， 虽 然 开 始 可 能 因为 不 熟悉 而 出 现 
很 多 错误 ， 不 过 人 类 不 就 是 在 错误 中 前 进 吗 ? 错 多 了 ， 通 过 排 错 印象 深刻 了 ， 也 就 自然 学 会 
了 。 打 开 Putty 连接 到 Linux， 开 始 创建 Scrapy 项 目 。 执 行 命令 : 

cd 

cd code/scrapy/ 

scrapy startproject todayMovie 

tree todayMovie 


执行 结果 如 图 5-9 所 示 。 
2 


king&debian8:-/code/scrapyS scrapy startproject todayMovie ^ 

INew Scrapy project 'todayMovie', using template directory '/home/king/anaconda3/ 

lib/python3.6/site-packages/scrapy/templates/project', created in: 
/home/king/code/scrapy/todayMovie 


|You can start your first spider with: 
| cd todayMovie 
scrapy genspider example example.com 
king@debian8:~/code/scrapy$ tree todayMovie/ 
todayMovie/ 
||— scrapy.cfg 
|L— todayMovie 
| init__.py 
|— itens.py 
|— niadiewares.py 
|— pipelines.py 
FE _pycache__ 
|— settings.py 
[一 spiders 
—init__-py 
L— __pycache__ 
4 directories, 7 files 
king@debian8:~/code/scrapy$ [] v 


5-9 创建 todayMovie MH 
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tree 命令 将 以 树 形 结构 显示 文件 目录 结构 。tree 命令 默认 情况 下 是 没有 安装 的 ， 可 以 执行 
C 命令 apt-get install tree 来 安装 这 个 命令 。 


这 里 可 以 很 清楚 地 看 到 todayMovie 目录 下 的 所 有 子 文件 和 子 目 录 。 至 此 Scrapy 项 目 
todayMovie 基本 上 完成 了 。 按 照 Scrapy 的 提示 信息 ， 可 以 通过 Scrapy 的 Spider 基础 模版 顺 
便 建立 一 个 基础 的 仆 虫 。 相 当 于 把 填空 题 打印 到 试卷 上 ， 等 待 填空 了 。 当 然 ， 也 可 以 不 用 
Scrapy 命令 建立 基础 候 虫 ， 如 果 非 要 体验 一 下 DIY 也 是 可 以 的 。 这 里 我 们 还 是 怎么 简单 怎么 
来 吧 ， 按 照 提示 信息 ， 在 该 终端 中 执行 命令 : 


cd todayMovie 
scrapy genspider wuHanMovieSpider mtime.com 


执行 结果 如 图 5-10 所 示 。 


4 directories, 7 files 
king@debian8:~/code/scrapy$ cd todayMovie/ 
kingüdebianB:-/code/scrapy/todayMovieS scrapy genspider wuHanmovieSpider mtime.c 


lom 

Created spider 'wuHanmovieSpider' using template 'basic' in module: 
todayMovie.spiders.wuHanmovieSpider 

kingédebianB8:-/code/scrapy/todayMovie$ 


5-10 CEER 


Spb, -ARERR A DAR eT, CUA T Scrapy Mra MERCH 
到 这 一 步 可 以 说 填空 题 已 准备 完毕 ， 后 面 的 工作 就 纯粹 是 填空 了 。 图 5-10 中 第 一 行文 字 scrapy 
genspider 是 一 个 命令 ， 也 是 Scrapy 最 常用 的 几 个 命令 之 一 ， 它 的 使 用 方法 如 图 5-11 所 示 。 
kingedebian8:~/code/scrapy/todayMovies scrapy genspider -h ^ 


Usage 


scrapy genspider [options] <name> <domain> 


Generate new spider using pre-defined templates 


Options 

--help, -h show this help message and exit 
--list, -1 List available templates 
--edit, -e Edit spider after creating it 


--dump-TEMPLATE, -d TEMPLATE 
Dump template to standard output 
--template-TEMPLATE, -t TEMPLATE 
Uses a custom template. 
--force 1f the spider already exists, overwrite it with the 
template 


Global Options 


--logfile=FILE log file. if omitted stderr will be used 
--loglevel-LEVEL, -L LEVEL 
log level (default: DEBUG) v 


5-11 scrapy genspider 命令 帮助 


此 ， 刚 才 的 命令 意思 是 使 用 scrapy genspider 命令 创建 一 个 名 字 为 wuHanMovieSpider 
的 仆 虫 脚本 。 这 个 脚本 搜索 的 域 为 mtime.com。 


DH 
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5.3.2 Scrapy 文件 介绍 


Scrapy 项 目的 所 有 文件 都 已 经 到 位 了 ， 如 图 5-10 所 示 ， 下 面 来 看 看 各 个 文件 的 作用 。 首 
先 最 顶层 的 那个 todayMovie 文件 夹 是 项 目 名 ， 这 个 没什么 好 说 的 。 

在 第 二 层 中 是 一 个 与 项 目 同名 的 文件 夹 todayMovie 和 一 个 文件 scrapy.cfg， 这 里 与 项 目 
同名 的 文件 夹 todayMovie 是 模块 〈 也 可 以 叫做 包 的 ) ， 所 有 的 项 目 代 码 都 在 这 个 模块 (文件 
夹 或 者 叫 包 ) 内 添加 。 而 scrapy.cfg 文件 ， 顾 名 思 义 它 是 整个 Scrapy 项 目的 配置 文件 。 来 看 
看 这 个 文件 里 有 些 什 么 。Scrapy.cfg 文件 内 容 如 下 : 


# Automatically created by: scrapy startproject 
+ 
# For more information about the [deploy] section see: 


# http://doc.scrapy.org/en/latest/topics/scrapyd.html 


a 
2 
S 
4 
5 
6 [settings] 

7 default = todayMovie.settings 

8 

9 [deploy] 

10 furl = http://localhost:6800/ 
11 project - todayMovie 


除去 以 “# ”为 开头 的 注释 行 ， 整 个 文件 只 声明 了 两 件 事 : 一 是 定义 默认 设置 文件 的 位 置 
为 todayMovie 模块 下 的 settings 文件 ， 二 是 定义 项 目 名 称 为 todayMovie。 

在 第 三 层 中 有 6 个 文件 和 一 个 文件 夹 (实际 上 这 也 是 个 模块 )。 看 起 来 很 多 。 实 际 上 有 
用 的 也 就 3 个 文件 ， 分 别 是 items.py、pipelines.py、settings.py。 其 他 的 3 个 文件 中 ， 以 pyc 
结尾 的 是 同名 Python 程序 编译 得 到 的 字 节 码 文件 ，settings.pyc 是 settings.py 的 字 节 码 文件 ， 
. init .pyc 4E init .py 的 字 节 码 文 件 。 据 说 用 来 加 快 程序 的 运行 速度 ， 可 以 忽视 。 至 于 
. init .py 文件 ， 它 是 个 空 文件 ， 里 面 什么 都 没有 。 在 此 处 唯一 的 作用 就 是 将 它 的 上 级 目录 
变 成 了 一 个 模块 。 也 就 是 说 第 二 层 的 todayMovie 模块 下 ， 如 果 没 有 _ init_.py 文件 。 那 么 
todayMovie 就 只 是 一 个 单纯 的 文件 夹 。 在 任何 一 个 目录 下 添加 一 个 空 的 _init_.py 文件 ， 就 
会 将 该 文件 夹 编程 模块 化 ， 可 以 供 Python 导入 使 用 。 

有 用 的 这 3 个 文件 中 。settings.py 是 上 层 目录 中 scrapy.cfg 定义 的 设置 文件 。settings.py 
的 内 容 如 下 : 


# -*- coding: utf-8 -*- 


1 
2 
3 # Scrapy settings for todayMovie project 
4d 
5 # For simplicity, this file contains only settings considered important 
or 

6 # commonly used. You can find more settings consulting the 


documentation: 
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https://doc.scrapy.org/en/latest/topics/settings.html 
https://doc.scrapy.org/en/latest/topics/downloader-middleware.html 


ae FE HR te 


10 https://doc.scrapy.org/en/latest/topics/spider-middleware.html 
aby 

12 BOT NAME = 'todayMovie' 

433 


14 SPIDER MODULES - ['todayMovie.spiders'] 

15 NEWSPIDER MODULE - 'todayMovie.spiders' 

16 

17 

18 # Crawl responsibly by identifying yourself (and your website) on the 
user-agent 

19 £&USER AGENT = 'todayMovie (*http://www.yourdomain.com)"' 

20 

21 # Obey robots.txt rules 

22 ROBOTSTXT OBEY - True 


items.py SAFRE H AE sg SURE ruft Zt E, items.py 的 内 容 如 下 : 


1 4 -+= coding; utf-8 =t- 


2 

3 # Define here the models for your scraped items 
4# 

5 # See documentation in: 

6 # http://doc.scrapy.org/en/latest/topics/items.html 
7 

8 import scrapy 

9 

10 

11 class TodaymovieItem(scrapy.Item) : 

12 # define the fields for your item here like: 
13 # name = scrapy.Field() 

14 pass 


pipelines.py 文件 的 作用 是 扫尾 。Scrapy MEHER T AARAA, AEREA Ae 
就 取决 于 pipelines.py 如 何 设置 了 。pipeliens.py 文件 内 容 如 下 : 


3 -*- coding: utf-8 -*- 


# Define your item pipelines here 

+ 

# Don't forget to add your pipeline to the ITEM PIPELINES setting 
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html 


YA OB WNHRH 
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8 

9 class TodaymoviePipeline (object): 

10 def process item(self, item, spider): 
11 return item 


第 二 层 中 还 有 一 个 spiders 的 文件 夹 。 仔 细 看 一 下 ， 在 该 目录 下 也 有 个 _init .py 文件 ， 
说 明 这 个 文件 夹 也 是 一 个 模块 。 在 该 模块 下 是 本 项 目 中 所 有 的 爬虫 文件 。 

第 三 层 中 有 3 个 文件 ，_init_ .py、_init .pyce、wuHanMovieSpiderpy。 前 两 个 文件 刚 
才 已 经 介绍 过 了 ， 基 本 不 起 作用 。wuHanMovieSpiderpy 文件 是 刚才 用 scrapy genspider 命令 
fi HME rh Sc F. wuHanMovieSpider.py 文件 内 容 如 下 : 


1# =*= coding; utf=8 =*= 
2 import scrapy 


3 

4 

5 class WuhanmoviespiderSpider (scrapy.Spider) : 
6 name = "wuHanMovieSpider" 

vi allowed_domains = ["mtime.com"] 
8 start_urls = ( 

9 "http://www.mtime.com/', 

10 ) 

aa 

12 def parse(self, response): 

13) pass 


FEATK IS dUSLH atl, MEE HUWÜ HU 4 个 文件 ， 它 们 分 别 是 items.py. 
settings.py ~ pipelines.py 、 wuHanMovieSpiderpy 。 其 中 itemspy W sE JE Hx Mb m i B, 
wuHanMovieSpiderpy JE AE, settings.py PE HEF AFRICA, pipelines.py 决定 
NEUE H PSI EFE AERE 


5.3.3 Scrapy IE t 4s 5 

My first scrapy crawl GAR, BARR MEAR. ix Ter AMIR E BEA S, W 
我 们 只 需要 在 网 页 中 采集 这 一 项 即 可 。 

1 . 选择 肥 取 的 项 目 items.py 

修改 items.py 文件 如 下 : 


1 4 -*- coding: untf-8 -*- 
Define here the models for your scraped items 


See documentation in: 


+ 
+ 
+ 
# http://doc.scrapy.org/en/latest/topics/items.html 


YAU BWN 
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8 import scrapy 


9 
10 
11 
12 
13 
14 
15 
16 
alg} 
18 


class TodaymovieItem(scrapy.Item): 


# define the fields for your item here like: 
# name = scrapy.Field() 

#pass 

movieTitleCn = scrapy.Field() # 影 片 中 文 名 
movieTitleEn = scrapy.Field() # 影 片 英 文 名 
director = scrapy.Field() # 导 演 

runtime = scrapy.Field() # 电 影 时 长 


由 于 Python 中 严格 的 格式 检查 。Python 中 最 常见 的 异常 IndentationError 会 经 常 出 现 。 如 
果 使 用 的 编辑 器 是 vi 或 者 vim， 强 烈 建议 修改 vi 的 全 局 配置 文件 /etc/vim/vimre， 将 所 有 
的 4 个 空格 变 成 tab。 


与 最 初 的 items.py 比较 一 下 ， 修 改 后 的 文件 只 是 按照 原文 的 提示 添加 了 需要 扑 取 的 项 
目 ， 然 后 将 类 结尾 的 pass 去 掉 了 。 这 个 类 是 继承 与 Scrapy 的 Iteam 类 ， 它 没有 重 载 Python 
类 的 _init_ 的 解析 函数 ， 没 有 定义 新 的 类 函数 ， 只 定义 了 类 成 员 。 

2 . 定义 怎样 他 取 wuHanMovieSpider.py 

修改 spiders/wuHanMovieSpider.py， 内 容 如 下 : 


m 
2 


1 


3 
4 
5 
6 
是 
8 
9 
0 
ani 


$ -ta coding: uEfR-8 =*= 

import scrapy 

from todayMovie.items import TodaymovieItem 
import re 


class WuhanmoviespiderSpider (scrapy.Spider) : 


name = "wuHanMovieSpider" 
allowed_domains = ["mtime.com"] 
start_urls = [ 


'http://theater.mtime.com/China Hubei Province Wuhan Wuchang/4316/', 


12 
HIS 
14 
15 
16 


] # 这 个 是 武汉 汉 街 万 达 影院 的 主页 


def parse(self, response): 
selector = 


response. xpath ('/html/body/script[3]/text()"') [0] .extract () 
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17 
18 
19 
20 
Zu 
22 
ZS 


moviesStr = re.search('"movies":\[.*?\]', selector) .group() 
moviesList = re.findall('{.*?}', moviesStr) 
items = [] 
for movie in moviesList: 
mDic = eval (movie) 
item = TodaymovieItem() 
item['movieTitleCn'] = mDic.get('movieTitleCn') 


24 item['movieTitleEn'] = mDic.get('movieTitleEn') 


25 item['director'] = mDic.get('director') 
26 item['runtime'] = mDic.get('runtime') 
27 items.append (item) 

28 return items 


在 这 个 python 文件 中 ， 首 先导 入 了 scrapy 模块 ， 然 后 从 模块 〈 包 ) todayMovie 中 的 
items 文件 中 导入 了 Todaymovieltem 类 ， 也 就 是 刚才 定义 需要 怜 行内 容 的 那个 类 。 
WuhanmovieSpider Æ — Be MEE, "CAE HI scrapy genspider 命令 自动 生成 的 。 这 个 自 
定义 类 继承 于 scrapySpider 类 。 第 8 行 的 name 5E X788: 44. $ 9 行 的 allowed_domains 
定义 的 是 域 范围 ， 也 就 是 说 该 朴 虫 只 能 在 这 个 域内 疏 行 。 第 11 ATHY start urls 定义 的 是 疏 行 
的 网 页 ， 这 个 怜 虫 只 需要 疏 行 一 个 网 页 ， 所 以 在 这 里 start urls 可 以 是 一 个 元 组 类 型 。 如 果 需 
要 疏 行 多 个 网 页 ， 最 好 使 用 列表 类 型 ， 以 便于 随时 在 后 面 添加 需要 疏 行 的 网 页 。 

MERKT AY parse 函数 需要 参数 response， 这 个 response 就 是 请 求 网 页 后 返回 的 数据 。 至 
于 怎么 从 response 中 选取 所 需 的 内 容 ， 笔 者 一 般 采 取 两 种 方法 ， 一 是 直接 在 网 页 上 查看 网 页 
源 代 码 ， 二 是 自己 写 个 Python 3 程序 使 用 urllib.request 将 网 页 返回 的 内 容 写 入 到 文本 文件 
中 ， 再 慢 慢 地 查询 。 

打开 Chrome 浏览 器 ， 在 地 址 栏 输入 怜 取 网 页 的 地 址 ， 打 开 网 页 ， 如 图 5-12 所 示 。 


Os 
| ENER eR x 
€| C © theater.mtime.com/China Hubei Province Wuhai 


AN : 


» fh n g 区 武汉 市 武昌 区 水 果 湖 楚 河 汉 街 1 号 万 达 广 
fy 


电话 : 027-87713677 。 营业 时 间 : 10 


ESU 


2248425 


11H28H.EBR 8 BB -3 y 


今天 NABA 局 Bus 


图 5-12 ERKAK 


同一 网 页 内 的 同一 项 目 格式 基本 上 都 是 相同 的 ， 即 使 略 有 不 同 ， 也 可 以 通过 增加 挑选 条 
件 将 所 需 的 数据 全 部 放 入 选择 器 。 在 网 页 中 右 击 空白 处 ， 在 弹出 菜单 中 选择 “查看 网 页 源 代 
码 ”， 如 图 5-13 所 示 。 
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打开 源 代码 网 页 ， 按 Ctrl+F 组 合 键 ， 在 查找 框 中 输入 “ 寻 梦 环 游记 ”后 按 回 车 键 ， 


Dl axem exe x 


€ > C [O theatersmtime.com/China Hui 


ovince Wuhan .. 3r 
11 月 28 日 上 映 8 部 - 共 76 场 
4X "HH mE 1218 


ARERR CIPIT. IMAX. IMAX3D, 
XLANDIT. 4DF. SceenXT ) 时 , 身高 
FE) 3H) SERES 


BRR). 
Hao. 
BHO. 


deser (ME) m 寻 梦 环 游记 OO 
© AdBlock "Io: URS 
@ IDM Integration Module * | 时 长 : 1099388 


SERT) Cede 
av : 12:10 E) 


图 5-13 查看 网 页 源 代码 


结果 如 图 5-14 所 示 。 
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(i) exer meme x y [f view-sourcetheater.m x 


266 
267 
268 
269 


CŒ |O view-source:theater.mtime.com/China Hubei Pı * i 

(dl ide"commentsRegion" class="clearfix  r c armed av x| 

" style="" p classe! 

“display:none; "><a id-"moreCommentBtn" href click"retum false; ^E i 

eo Dqg2dp (/ div div 
<div class="aside"> <div 

ide NI4 A Cinena Connents_Right”></div> q àv div» 
aiv» <div id»"Nl4 A Cinema Footer X/div? </div></div> 


<script type="text/ javascript "> 
var branchList = [] 

</script><script type=" text/javascript” 
var cinemaShowtimesScriptVariables 4 ['cinemald": 4316, "namecn": “武汉 汉 街 万 达 广场 

T5", " address" GR rk B ERMAN (18 AA 15 8 [^ ." cityid": 561, “telphone” :”027- 

87713677", “longitude” : 114. 3512, “latidude” ;30, 55128, "rating :T. 778044, "roadline 车 、19 

路 5379% > 5819% > 58398 > GARBA WHA”, “novieComt” -8, " shotimeCount" : 76, “currentDate”: "2017-11- 

28”, “today” :" 2017-11-28", "valueDates": [ 'date": new Date ("November, 28 2017 


00: 00:00"), "dateUr1": "http: //theater. mt ine. con/China_Hubei_Province_Wuhan Wuchang/4316/? Bl 


4«20171128"], ("date":new Date("December, 1 2017 


d-20171201"]], "novies": [{"novield”: 227434, “novieTitleCn”: "BESEBEUE 
1B", " novi eTit leEn"- "Coco", " coverSrc": "http: //ingS. atine. cn/nt./201 1/ 10/23/ 101938. 17733324| 182k243X4. 
jpe”, "bigRating":9, "smallRating":9, "trailerld': 68385, "director": 3E - MARA”, "actor" “安东尼 * Pd 
PRB". "actor2": "BUT. - 加 西亚 * MAR”, “runtime” :” 1095) 36" ," property": 动画 /冒险 /喜剧 / 穿 历 /奇幻 / 歌 
A/B, "viesProperty" “动画 /冒险 /喜剧 /家 

,novieDetaillirl”: "http: //novie. nt ine. con 22 434/"," year": "201T T, 
'novieId':222372, "movieTitleCn":"iÉ 

Ai." novieTitleEn^: “Manhunt”, "coverStc" : “http: //ing6. mtine. cn/nt/2017/11/15/092729. 26076451. 1824243 
X4. jpg", " bàgRating" -6, “smal Rating” : 0, "trailerId':68525, “director”: "RPR". “ 张 通 

T7. actor2"; "RULES", runtime" 7 1073 ^ , "property": “动作 /剧情 /犯罪 ”,“viewProperty”;“ 动 作 / 剧 情 / 
ME”, “novi eDetailUrl”: "http: //movie. ntine. con/222312/" , "year": "2017"}, 

Vnovield': 70233, "aovieTitleCn":" IE KI", “novieTitlein’ : "Justice 

League", " coverSrc": "http: // ing5. mtine. cn/nt/2017/11/22/ 115051. 54120032. 182X243K4. jpg”. "bigRating":T 

» "snallRating":4, “trailerId”: 68477, “director”: "#L5% - MEGS", "actor": "Jk - SABI", “ actor2" “MT 

+ BAR", “runt ime” 7 1207344", “property”: ^5fE/ gifs / B £)/ EJ", “view roperty” 动作 /冒险 /奇幻 / 科 

£J"," novieDetailUrl": "http: // movie. mtine. con/70233/”, "year": 2017], 

{’novield”: 237204, "movielitleCn": "3/48 

3C," novielitleEn": “Explosion”, “coverSrc” :“http://ing6, mtine. cn/nt/2011/10/26/111645. 23140328_182K2 
43K4. jpg”, "bigRating” :7, " snal Rat ing” :4, “trai lerld” - 68547, “director”: "党 征 ", “actor”: ” RI 

Be" ector2": "RB", runtime” 1089 W “property”: “shir/ A", “viewroperty”:“ahfk/D ~ 


5-14 查找 关键 词 


查找 


整个 源 代码 网 页 只 有 一 个 查询 结果 ， 那 就 是 它 了 。 而 且 很 幸运 的 是 ， 所 有 的 电影 信息 都 
在 一 起 ， 是 以 json 格式 返回 的 。 这 种 格式 可 以 很 容易 地 转换 成 字典 格式 获取 数据 〈 也 可 以 直 
接 json 模块 获取 数据 ) 。 
仔细 看 看 怎样 才能 得 到 这 个 “字典 ” (json 格式 的 字符 串 ) W? 如 果 谋 套 的 标签 比较 多 ， 可 
以 用 XPath 谋 套 搜索 的 方式 来 逐步 定位 。 这 个 页 面 的 源码 不 算 复杂 ， 直 接 定 位 Tag 标签 后 一 
个 一 个 的 数 标签 就 可 以 了 。Json 字符 串 包 含 在 script 标签 内 ， 数 一 下 script 标签 的 位 置 ， 在 脚 
本 中 执行 语句 : 

16 selector = response.xpath('/html/body/script[3]/text()')[0].extract( ) 

意思 是 选择 页 面 代码 中 html 标签 下 的 body 标签 下 的 第 4 个 script 标签 。 然 后 获取 这 个 
标签 的 所 有 文本 ， 并 释放 出 来 。 选 择 器 的 选择 到 底 对 不 对 呢 ? 可 以 验证 一 下 ， 在 该 项 目的 任 
意 一 级 目录 下 ， 执 行 命令 : 

scrapy shell 
http://theater.mtime.com/China Hubei Province Wuhan Wuchang/4316/ 


执行 结果 如 图 5-15 所 示 。 


IT 


B kingod 


lare ^ 
2017-11-28 12:26:51+0800 [scrapy] INFO: Enabled item pipelines: TodaymoviePipeli 
ne 

[scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 


[scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
[wuHanMovieSpider] INFO: Spider opened 
[wuHanMovieSpider] DEBUG: Crawled (200) «GET http://the 
ater.mtime.com/China Hubei Province Wuhan Wuchang/4316/» (referer: None) 
[s] Available Scrapy objects: 
[s] crawler  <scrapy.crawler.Crawler object at Ox7faSee8f7d10» 
item 0 
request ~ «GET http://theater.mtime.com/China Hubei Province Wuhan Wuchan 


4200 http://theater.mtime.com/China Hubei Province Wuhan Wuchan| 


settings <scrapy.settings.Settings object at Ox7fabefzecas0> 

spider <WuhanmoviespiderSpider 'wuHanMovieSpider' at 0x7fa8eda8S610> 
Useful shortcuts: 

shelp() Shell help (print this help) 

fetch(req_or_url) Fetch request (or URL) and update local objects 

view(response) View response in a browser 


图 5-15 scrapy shell 
response 后 面 的 200 是 网 页 返回 代码 ，200 代表 获取 数据 正常 返回 ， 如 果 出 现 
字 ， 那 就 得 仔细 检查 代码 了 。 现 在 可 以 放心 地 验证 了 ， 执 行 命令 : 


selector = response.xpath('/html/body/script[3]/text() ') [0] . extract () 
print (selector) 


执行 结果 如 图 5-16 所 示 。 


E 


i 


他 的 数 
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a king@debians: ~/code/scrapy/todayMovie/todayMovie 


response <200 http://theater.mtime.com/China Hubei Province Wuhan Wuchan ^ 
settings <scrapy.settings.Settings object at 0x7f216be66668» 
spider <WuhanmoviespiderSpider 'wuHanmovieSpider' at 0x7f216b9d7e48» 

[s] Useful shortcuts: 

[s]  fetch(url[, redirecteTrue]) Fetch URL and update local objects (by default 

, redirects are followed) 

[s] fetch(req) Fetch a scrapy.Request and update local object 

s 

[s]  shelp() Shell help (print this help) 

| —view{response) — View response in a browser— 

: selector = response.xpath('/htm s t[3]/text()') [0] .extract () 


nt (selector) 


var cinemaShowtimesScriptVariables = ("cinemaId":4316, "namecn":" 武 汉 汉 街 

address":" 武 汉 市 武昌 区 水 果 湖 楚 河 汉 衔 1 号 万 达 广场 五 层 ", "cityid":561," 

87713677", "longitude":114.3512, "latidude":30.55128, "rating":7.777 

5 ~ 5830, 6486 it É I Hi 3e n" novieco 

"showtimeCount":74, "currentDate":"2018-01-29", "today" :"2018-01-29", "value 

"date":new Date("January, 29 2018 00:00:00"),"dateUrl":"http://theater. 

Intime.com/China Hubei Province Wuhan Wuchang/4316/7d-20180129"), ("date":new Date 

("February, 2 2018 00:00:00"),"dateUrl":"http://theater.mtime.com/China Hubei Pr 
ovince Wuhan Wuchang/4316/2d-20180202"), ("date":new Date("February, 14 2018 00:0 v 


5-16 验证 选择 器 


看 来 选择 器 的 选择 没 问题 。 再 回头 看 看 wuHanMovieSpider.py 中 的 parse 函数 就 很 容易 理 
解 了 。 代 码 第 17、18 行 先 用 re 模块 将 json 字符 串 从 选择 器 的 结果 中 过 滤 出 来 。 第 19 行 定 义 
了 一 个 items 的 空 列表 ， 这 里 定义 items 的 列表 是 因为 返回 的 item 不 止 一 个 ， 所 以 只 能 让 
item 以 列表 的 形式 返回 。 第 22 行 item 初始 化 为 一 个 Todaymoizeltem() 的 类 ， 这 个 类 是 从 
todayMovie.items 中 初始 化 过 来 的 。 第 21 行将 json 字符 串 转换 成 了 一 个 Python 字典 格式 。 第 
23-26 行将 已 经 初始 化 类 item 中 的 movieName 项 赋值 。 第 27 行将 item 追加 到 items 列表 中 
去 。 最 后 return items， 注 意 这 里 返回 的 是 items， 不 是 item. 


3 . 保存 伶 取 的 结果 pipelines.py 
修改 pipelines.py， 内 容 如 下 : 


1 * -*- coding: utf-8 -*- 

2 

3 # Define your item pipelines here 

4d 

5 # Don't forget to add your pipeline to the ITEM PIPELINES setting 
6 # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html 
7 

8 import codecs 

9 import time 

10 

11 class TodaymoviePipeline (object) : 

12 def process_item(self, item, spider): 

13 today = time.strftime('$Y-$m-$d', time.localtime()) 

14 fileName = ' 武 汉 汉 街 万 达 广 场 店 ' + today + '.txt' 

1S with codecs.open (fileName, 'a+', 'utf-8') as fp: 

16 fp.write('%s %s %s %s \r\n' 

17 $(item['movieTitleCn'], 

18 item['movieTitleEn'], 

19 item['director'], 
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20 item['runtime'])) 

21 # return item 

这 个 脚本 没什么 可 说 的 ， 比 较 简 单 。 就 是 把 当日 的 年 月 日 抽取 出 来 当成 文件 名 的 一 部 
分 。 然 后 把 wuHanMovieSpider.py 中 获取 项 的 内 容 输入 到 该 文件 中 。 这 个 脚本 中 只 需要 注意 
两 点 。 第 一 ，open 函数 创建 文件 时 必须 是 以 追加 的 形式 创建 ， 也 就 是 说 open 函数 的 第 二 个 
参数 必须 是 a， 也 就 是 文件 写 入 的 追加 模式 append。。 因 为 wuHanMovieSpider.py 返回 的 是 
一 个 item 列表 items， 这 里 的 写 入 文件 只 能 一 个 一 个 item 地 写 入 。 如 果 open 函数 的 第 二 个 参 
数 是 写 入 模式 write， 造 成 的 后 果 就 是 先 擦 除 前 面 写 入 的 内 容 ， 再 写 入 新 内 容 ， 一 直 循环 到 
items 列表 结束 ， 最 终 的 结果 就 是 文件 里 只 保存 了 最 后 一 个 item 的 内 容 。 第 二 是 保存 文件 中 
的 内 容 如 果 含 有 汉字 就 必须 转换 成 utf8 码 。 汉 字 的 unicode 码 保存 到 文件 中 正常 人 类 都 是 无 
法 识别 的 ， 所 以 还 是 转换 成 正常 人 类 能 识别 的 utfg 吧 。 

到 了 这 一 步 ， 这 个 Scrapy 扑 虫 基本 上 完成 了 。 回 到 scrapy.cfg 文件 的 同 级 目录 下 实际 
上 只 要 是 在 todayMovie 项 目下 的 任意 目录 中 执行 都 行 ， 之 所 以 在 这 一 级 目录 执行 纯粹 是 为 了 
美观 而 已 ) ， 执 行 命令 : 

scrapy crawl wuHanMovieSpider 

结果 却 什么 都 没有 ? 为 什么 呢 ? 

4 . 分 派 任务 的 settings.py 

先 看 看 settings.py 的 初始 代码 。 它 仅 指定 了 Spider MMR. WES EN Spider Ie 
虫 的 开头 ， 它 导入 了 items.py 作为 模块 ， 也 就 是 说 现在 Scrapy 已 经 知道 了 怜 取 哪些 项 目 ， 怎 
FERA, M pipelines 说 明了 最 终 的 疏 取 结果 怎样 处 理 。 唯 一 不 知道 的 就 是 由 谁 来 处 理 这 
个 疏 行 结果 ， 这 时 候 就 该 setting.py 出 点 力气 了 。setting.py 的 最 终 代码 如 下 : 


1 * -*- coding: vtf-8 -*- 


Scrapy settings for todayMovie project 


Qu oN 
aE se 


# For simplicity, this file contains only the most important settings 
by 
default. All the other settings are documented here: 


+ 
+ 
+ http://doc.scrapy.org/en/latest/topics/settings.html 
+ 

11 BOT_NAME = 'todayMovie' 


13 SPIDER_MODULES = ['todayMovie.spiders'] 
14 NEWSPIDER_MODULE = 'todayMovie.spiders' 


16 # Crawl responsibly by identifying yourself (and your website) on the 


user-a gent 
17 #USER_AGENT = 'todayMovie (+http://www.yourdomain.com) ' 
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Te ### user define 

20 ITEM PIPELINES = ('todayMovie.pipelines.TodaymoviePipeline':300] 

这 跟 初 始 的 settings.py 相 比 ， 就 是 在 最 后 添加 了 一 行 ITEM PIPELINES. ‘CVF Scrapy 
最 终 的 结果 是 由 todayMovie 模块 中 pipelines 模块 的 TodaymoviePipeline 类 来 处 理 。 
ITEM PIPELINES 是 一 个 字典 ， 字 典 的 key 用 来 处 理 结果 的 类 ， 字 典 的 value 是 这 个 类 执行 
的 顺序 。 这 里 只 有 一 种 处 理 方式 ，value 填 多 少 都 没 问题 。 如 果 需 要 多 种 处 理 结果 的 方法 ， 那 
就 要 确立 顺序 了 。 数 字 越 小 的 越 先 被 执行 。 

现在 可 以 测试 这 个 Scrapy EET, APT AS: 


scrapy crawl wuHanMovieSpider 
1s 
COENA LCD 


执行 结果 如 图 5-17 所 示 。 
2 


'scheduler/enqueued': 1, 
'scheduler/enqueued/memory': 1, 
'start time': datetime.datetime(2017, 11, 28, 4, 51, 19, 969087)) 
2017-11-28 12:51:2040800 [wuHanMovieSpider] INFO: Spider closed (finished) 
17/code/crawler/scrapyProject/todayMovie$ 1s 
汉 汉 街 万 达 广场 店 2017-11-23.sxc 


ÈH Manhunt RFA 10720 
正义 联盟 Justice League 扎 克 - 施 奈 德 、120 分 钟 

BIS Explosion WE 105 分 钟 

TÆT Inference Notes HAM osht 

SESE Angels Wear White XH 107 分 钟 

PARA nnn MSE - 吉 门 内 兹 ”59 分 钟 〈 中 国 ) 1120 分 钟 〈 法 国 ) 
怀 成 问题 的 问题 Mr.No Problem tig 133 分 钟 

GPE Coco F- MAEM 109 分 钟 

Manhunt RFR ”107 分 钟 

正义 联盟 Justice League HLX -ERE 12024 

BIS Explosion WE 10s 分 钟 

HETET Inference Notes 张 天 辉 ”95 分 钟 

MELE Angels Wear White XM 107 分 钟 

MARERE nnn MSE AIAG 99 分 钟 ( 中 国 ) 1120 分 钟 《 法 国 )| 
怀 成 问题 的 问题 Mr.No Problem 梅 峰 133 分 钟 


a 


图 5-17. Scrapy JE R 


d, ASTRA MC du SX T. MGA AT GH, Scrapy ERR REMEE 
路 照章 填空 就 可 以 了 。 如 果 需 要 的 项 比较 多 ， 获 取 内 容 的 网 页 源 比较 复杂 或 者 不 规范 ， 可 能 
会 稍微 麻烦 点 ， 但 处 理 起 来 基本 上 都 是 大 同 小 异 的 。 与 前 章 的 re 爬虫 相 比 ， 越 复杂 的 怜 虫 就 
越 能 体现 Scrapy 的 优势 。 


5.4 Scrapy 疏 虫 实战 二 : 天 气 预 报 


上 节 使 用 Scrapy 做 了 一 个 最 简单 的 息 虫 。 本 节 稍 微 增加 点 难度 ， 做 个 所 需 项 目 多 一 点 的 
怜 虫 ， 并 将 怜 虫 的 结果 以 多 种 形式 保存 起 来 。 我 们 就 从 网 络 天 气 预报 开始 吧 。 
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54.4 项 目 准 备 


首先 要 做 的 是 确定 网 络 天 气 数据 的 来 源 。 打 开 百 度 ， 搜 索 “ 网 络 天 气 预报 ”， 搜 索 结 果 
如 图 5-18 所 示 。 


se. 
Bait BE BARE 百度 一 下 


pui s bE 知道 音乐 图 片 视频 地 图 文库 更 多 » 


E — TÀ FIA 
中 国 天 气 网 -专业 天 气 预报 、 气 象 服 务 门户 


中 国 天 气 网 官方 权威 发 布 天 气 预 报 , 逐 三 小 时 天 气 预报 ,提供 天 气 预报 
查询 一 周 天 气 预 报 15 天 查询 ,天 气 术 报 40 天 查询 ,空气 质量 ,生活 指数 
旅游 出 行 ,交通 天 气 等 查 词 服务 

Www weather com_cn/ -百度 快照 - 161 条 评 从 


天 气 预 报 -中 国 天 气 网 
D 中 国 天 气 网 为 您 提供 实时 全 国 天 气 气象 信息 ,及 时 发 布 天 气 预报 、 灾害 
预报 BE. SRZD REN. OM. RASSTARS REDI 
生活 提供 全 面 精 确 的 气象 服务 
wwwweather com cfor ，~ - EB - 161 条 评价 


询 一 天 查询 今天 气 


支 天 气 网 (www tangi com ki Ke BS EP UG HARRI 
ars JU BIS X EU 实时 更 新 天 气 .准确 提供 天 气 预报 一 周 查询 及 未 未 
c Xm FARK» 16X . -AAEN 


wwwtianqi com/ ~ - BE 4898 - 102% dí 


5-18 ”百度 搜索 数据 来 源 站 点 


有 很 多 网 站 可 以 选择 ,任意 选择 一 个 都 可 以 。 这 里 笔者 选择 的 是 
http://wuhan.tianqi.com/。 在 浏览 器 中 打开 该 网 站 ， 并 找到 所 属 的 城市 ， 将 会 出 现 当 地 一 周 的 
天 气 预 报 ， 如 图 5-19 所 示 。 


RENAE 武汉 生活 指数 武汉 历史 天 气 ODE" 


武汉 今天 天 气 武汉 当前 温度 风向 风力 me.s: o qi 
m Resta: 适宜 
531.6? REM: EH 
wet 3 PETI 
z " 
= mm 东北 风 oa epee 
东北 风 OR TUER manaki TEER ||| Re AD? 
湖北 武汉 天 气 预报 一 周 武汉 10 天 天 气 。 武汉 15 天 天 气 。 武汉 30 天 天 气 


起 今天 气 RISERS FOUREXU 武 % 日 天 气 RATHER RGAE 
星期 六 星期 日 星期 一 星期 二 星期 三 星期 四 


seze acut siczc ucc arcae 32C etc 
sz ES m 多 云 a 
东北 风 28 无 持续 网 向 微风 THEA 微风 。 无 持续 风向 MEL 。 无 持续 风向 微风 。 无 持续 风向 微风 


图 5-19 本 地 一 周 天 气 
在 这 里 ， 包 含 的 信息 有 城市 日 期 、 星 期 、 天 气 图 标 、 温 度 、 天 气 状 况 以 及 风向 。 除 了 天 


气 图 标 是 以 图 片 的 形式 显示 ， 其 他 的 几 项 都 是 字符 串 。 本 节 Scrapy 息 虫 的 目标 将 包含 所 有 的 
有 用 信息 。 至 此 ，items.py 文件 已 经 呼之欲出 了 。 
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5.4.2 ”创建 编辑 Scrapy IE 


首先 还 是 打开 Putty， 连 接 到 Linux。 在 工作 目录 下 创建 Scrapy 项 目 ， 并 根据 提示 依照 
spider 基础 模版 创建 一 个 spider。 执 行 命令 : 


cd 

cd code/scrapy 

scrapy startproject weather 

cd weather 

scrapy genspider wuHanSpider wuhan.tiangi.com 


执行 结果 如 图 5-20 所 示 。 


EP king@debian8: ~/code/scrapy/weather 


king&debian8 

kingédebian8:-$ cd code/scrapy 

king&debianB:-/code/scrapyS scrapy startproject weather 

New Scrapy project 'weather', using template directory '/home/king/anaconda3/lib 

/python3.6/site-packages/scrapy/templates/project', created in: 
/hone/king/code/scrapy/weather 


You can start your first spider with: 
cd weather 
scrapy genspider example example.com 
king@debian8:~/code/scrapy$ cd weather/ 
king@debian8:~/code/scrapy/weather$ scrapy genspider wuHanSpider tiangi.com 
created spider 'wuHanSpider' using template 'basic' in module: 
weather.spiders.wuHanSpider 
king@debian8:~/code/scrapy/weathers Bj 


FA 5-20 创建 Scrapy MH 
项 目 模版 创建 完毕 ， 项 目 文件 如 图 5-21 所 示 。 


BP king@debian8: ~/code/scrapy/weather 


king&debianB:-/code/scrapyS cd weather/ 

king&debianB:-/code/scrapy/weatherS scrapy genspider wuHanSpider tiangi.com 

Created spider 'wuHanSpider' using template 'basic' in module: 
weather.spiders.wuHanSpider 

king@debian8:~/code/scrapy/weather$ tree ./ 

"i 


E scrapy.cfg 
weather 


FF pipelines.py 


[+ _pycache__ 
| [— | init .cpython-36.pyc 


| L— settings.cpython-36.pyc 
|— settings.py 

[一 spiders 

|— init .py 


l— | pycache 
L— init .cpython-36.pyc 


L— wuBanSpider.py 


4 directories, 11 files 
king@debian8:~/code/scrapy/weathers M 


Ed 5-21 基础 项 目 模版 


1 . 修改 items.py 
按照 上 一 节 中 的 顺序 ， 第 一 个 要 修改 的 还 是 items.py。 修 改 后 的 items.py 代码 如 下 : 


4 # -*- coding: utf-8 -*- 
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2 

3 # Define here the models for your scraped items 

4d 

5 # See documentation in: 

6 4 http://doc.scrapy.org/en/latest/topics/items.html 
Ti 
8 


import scrapy 


9 

10 

11 class WeatherItem(scrapy.Item): 

12 # define the fields for your item here like: 


13 # name = scrapy.Field() 

14 cityDate = scrapy.Field() # 城 市 及 日 期 
15 week = scrapy.Field() # 星 期 

16 img = scrapy.Field() # 图 片 

17. temperature = scrapy.Field() # 温 度 
18 weather = scrapy.Field() # 天 气 

19 wind = scrapy.Field() #AJ 


在 items.py 文件 中 ， 只 需要 将 希望 获取 的 项 名 称 按照 文件 中 示例 的 格式 填 入 进去 即 可 。 
唯一 需要 注意 的 就 是 每 一 行 最 前 面 的 到 底 是 空格 还 是 Tabstop。 这 个 文件 可 以 说 是 Scrapy ME 


虫 中 最 没有 技术 含量 的 一 个 文件 了 。 填 空 ， 就 是 填空 而 已 。 
2 . 修改 Spider 文件 wuHanSpider.py 


按照 上 一 节 的 顺序 ， 第 二 个 修改 的 文件 应 该 轮 到 spiders/wuHanSpider.py 了 。 和 暂时 先 不 要 


修改 文件 ， 使 用 scrapy shell 命令 来 测试 、 获 取 选 择 器 。 执 行 命令 : 
scrapy shell https://www.tianqi.com/wuhan/ 
执行 结果 如 图 5-22 所 示 。 

P 4 


n 127.0.0.1:6 


3 ^ 
2018-01-30 16:11:32 [scrapy.core.engine] INFO: Spider opened 

2018-01-30 16: 3 [scrapy.core.engine] DEBUG: Crawled (200) «GET https://www.t 
iangí.com/robots.txt» (referer: None) 

2018-01-30 16:11:33 [scrapy.core.engine] DEBUG: Crawled (200) «GET https://www.t 
iangi.com/wuhan/» (referer: None) 

[2018-01-30 16:11:38 [traitlets) DEBUG: Using default logger 

2018-01-30 16:11:38 [traitlets] DEBUG: Using default logger 

[s] Available Scrapy objects: 


[s] scrapy scrapy module (contains scrapy.Request, scrapy.Selector, etc) 
[s] crawler  <scrapy.crawler.Crawler object at 0x7f91dd6e4208» 

[s] item {} 

[s] request ^ «GET https://www.tiangi.com/wuhan/» 

[s] [response «200 https://www.tiangi.com/wuhan/» 

[s] settings  «scrapy.settings.Settings object at Ox7f91dd6e40b8» 

[s] spider <WuhanspiderSpider 'wuHanSpider' at Ox7f91dd25cb00» 

[s] Useful shortcuts: 

[s] fetch(url[, redirect-True]) Fetch URL and update local objects (by default 
, redirects are followed) 

[s] fetch(req) Fetch a scrapy.Request and update local object 
s 

Jis) sheipay Shell help (print thís help) 


w (response) View response in a browser 


5-22 scrapy shell 


E 


从 上 图 可 看 出 response 的 返 


代码 为 200， 是 正常 返回 ， 已 成 功 获取 该 网 页 的 response。 


下 面 开始 试验 选择 器 了 。 打 开 Chrome 浏览 器 (任意 一 个 浏览 器 都 可 以 ， 哪 个 方便 用 哪 


个 ) ， 在 地 址 栏 输入 https:/www.tianqi.com/wuhan/， 按 Enter MTF. TER 


E 意 空 


击 ， 选 择 “ 查 看 网 页 源 代码 ”， 如 图 5-23 所 示 。 


处 右 
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Python 网 络 息 虫 实战 (第 2 版 


€ (FRAN) ER x 


€ > QC |O nips//wwwtlang.com/wunan/ 


PK uxo 


2018 年 01 月 29 日 星期 一 TPVEEIHT— 


523 ”查看 源 代码 


在 框架 源 代 码 页 ， 使 用 Ctrltf 组 合 键 查找 关键 词 “ 武 汉 天 气 预报 一 周 ”， 虽 然 有 5 个 结 
果 ， 但 也 能 很 容易 就 找到 所 需 数据 的 位 置 ， 如 图 5-24 所 示 。 


C ERASE] ERI x) € vewsoucehtips//w x 


aus view-source:https//www.tiangi.com/wuhan/ * Oe er OM: 
TANT SE, Za 
SAS style bacttraide-eclor AGN ZEMIN iM PI 
pano] m E 150r /| Eu a r7 / span» dd. 


"m tto 


12 ay clase riga 

133 div classe "tup ED span wel nba 18/7 RORIS A KC a 
aeta! /vibu/ 20/ RE RIOR R8 sp VW 

104 iv cir dsl 

ne si clases wd 

136 iano BI cepa BE Unio 


NANA. ——— 


Sepa BARE span 
apa HI et Gag 


dic http: //pic9, tiang juns con sta m— Voip Vli 
ab 


43 
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图 5-24 ”查找 所 需 数 据 位 置 


仔细 观察 了 一 下 ， 似 乎 所 有 的 数据 都 是 在 <div class="day7"> 这 个 标签 下 的 ， 试 下 查找 页 
面 还 有 没有 其 他 的 <div class="day7"> 的 标签 (这 种 可 能 性 已 经 很 小 了 ) 。 如 果 没 有 就 将 <div 
class="day7"> 作 为 XPath 的 锚 点 ， 如 图 5-25 所 示 。 
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525 ”测试 锚 点 


从 页 面 上 来 看 ， 每 天 的 数据 并 不 是 存在 一 起 的 。 而 是 用 类 似 表格 的 方式 ， 按 照 列 的 方式 
来 存储 的 。 不 过 没关系 ， 可 以 先 将 数据 抓 取 出 来 再 处 理 。 先 以 锚 点 为 参照 点 ， 将 日 期 和 星期 
抓 取出 来 。 回 到 Putty 下 的 scrapy shell 中 ， 执 行 命令 : 


selector = 
selectorl 
selectorl 


response.xpath('//div[@class="day7"]') 
selector.xpath('ul[G8class-"week"]/li') 


执行 结果 如 图 5-26 所 示 。 


 king@debian8: ~/code/scrapy/weather/weather 


selector = response.xpath('//div 


selector 
[<Selector xpath='//div(@class="day7"]* data="<div class="day7">\r\n\t\ 
class-"week"'»] 


[selector] = selector.xpath(* 


selectorl 


lout [20] : 
[«Selector xpathe-'ul[éclass-"week"]/li' data-'cli»«b»01)] 30H «/b»«span»M M 
pan»«img sr'», 

«Selector xpath-'ul[éclass-"week"]/li' data-'«1i»«b»01) 31H </b><span> M 


jpan 


n><img sr'>, 


«Selector xpathe'ul[éclasse"week"]/li' data='<1i><b>02A 01H </b><span>t Mi 
jpan><img sr'», 

<Selector xpath='ul[@class="week"]/1i' data='<1i><b>02 月 02 日 </b><span> 星 期 五 </s 
pan»«img sr'», 

«Selector xpath-'ul[éclass-"week"]/li' data='<li><b>02} 03H </b><span> MX «/s 
lpan><img sr'», 

<Selector xpath='ul(@class="week")/1i" data«'«1i»«b»02)] 04H </b><span> M H «/s 
pan»«img sr'», 

«Selector xpath-'ul[éclass-"week"]/li' data-'«1i»«b»02) 05H «/b»«span»M WW — «/s 
lpan><img sr'>] 


5-26 ”确定 XPath 锚 点 
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然后 从 selector! 中 提取 有 效 数 据 ， 如 图 5-27 所 示 。 


WP king@debian8: ~/code/scrapy/weather/weather 


pan><img sr'», 
<Selector xpathe' lass="week"]/1i" dat ><b>01 31H </b><span>M W = </ 


lector xpath="ul(@class="week"}/1i* ><b>02 月 01 日 </b><span> 星 期 四 </s 
pan><img sr'», 
<Selector xpat! @class="week"}/1i" dat. ><b>02 月 02 日 </b><span> 星 期 五 </s 
pan><img sr'>, 
«Selector xpath='ul[@class="week"}]/li' ><b>02 月 03 日 </b><span> 星 期 六 </s 
pan><img sr'», 
lector xpath='ul[@class="week"}/1i* »«b»02J 04H «/b»«span»M MA </s 
img sr'», 
lector xpath='ul(@class="week"}/1i* 1i»«p»02J 05H «/b»«span»A WI — «/s 
n»«img sr'»] 


selectorl[0].xpath('b/text () ') .extract() 
[*01 30H *] 


selectorl[0].xpath('spa: t () *) extract () 


[' 星 期 二 '] 


selectorl[0].xpath('ing ') -extract () 
['http://pic9.tiangijun.com/static/wap2018/icol/bl.png'] 


A 
527 XPath 选择 器 获取 数据 


图 5-27 已 经 将 日 期 、 星 期 和 图 片 挑选 出 来 了 ， 其 他 所 需 的 数据 可 以 按照 相同 的 方法 一 一 
挑选 出 来 。 过 滤 数 据 的 方法 既然 已 经 有 了 ，Scrapy WAP MNEs cE wuHanSpider.py 也 基本 
明朗 了 。wuHanSpider.py 的 代码 如 下 : 


1 $ -=*- coding: utf-8 =*= 


2 import scrapy 


3 from weather.items import WeatherItem 


class WuhanspiderSpider (scrapy.Spider) : 
name = 'wuHanSpider' 
allowed domains = ['tiangi.com'] 
citys = ['wuhan', 'shanghai'] 
start urls - [] 
for city in citys: 


start urls.append('https://www.tiangi.com/' + city) 


def parse(self, response): 


items- [] 

city = response.xpath('//dd[@class="name"]/h2/text()') .extract () 
Selector = response.xpath('//div[@class="day7"]") 

date = Selector.xpath('ul[@class="week"]/1i/b/text()').extract () 
week = Selector. xpath ('ul[@class="week"]/1i/span/text ()').extract() 
wind = Selector.xpath('ul[@class="txt"]/1li/text()').extract() 
weather = Selector.xpath('ul[@class="txt txt2"]/li/text()').extract() 
temperaturel = 


Selector.xpath ('div[@class="zxt_shuju"]/ul/1i/span/text()') .extract () 


23 


temperature2 = 


Selector.xpath ('div[@class="zxt_shuju"]/ul/1i/b/text()') .extract () 


24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 


for i in range(7): 

item = WeatherItem() 

try: 
item['cityDate'] = city[0] + date[i] 
item['week'] = week[i] 
item['wind'] = wind[i] 
item['temperature'] = temperaturel[i] + ',' + temperature2[i] 
item['weather'] = weather[i] 

except IndexError as e: 
sys.exit(-1) 

items.append(item) 


return items 


文件 开头 别 忘 了 导入 scrapy 模块 和 items 模块 。 在 第 8-11 行 中 ， 给 start. urls 列表 添加 了 
上 海天 气 的 网 页 。 如 果 还 想 添加 其 他 的 城市 天 气 ， 可 以 在 第 9 行 的 citys 列表 中 添加 城市 代码 。 

3 . 修改 pipelines.py， 处 理 Spider 的 结果 

这 里 还 是 将 Spider 的 结果 保存 为 txt 格式 ， 以 便于 阅读 。pipelines.py 文件 内 容 如 下 : 


1 


© oI O0 O0 & QN 


NNNPPPRPP RPP PP hp 
NPOw’ MB IDA UHYFBPwW;NEHO 


$ —*— Coding? uEf-8 一 “一 


# Define your item pipelines here 

+ 

# Don't forget to add your pipeline to the ITEM_PIPELINES setting 
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html 


import time 


import codecs 


class WeatherPipeline (object) : 
def process_item(self, item, spider): 
today = time.strftime('%Y%m%d', time.localtime() ) 
fileName = today + '.txt' 
with codecs.open(fileName, 'a', 'utf-8') as fp: 
fp.write("$s Nt $s Nt $s Nt %s Nt %s \r\n" 
$(item['cityDate'], 
item['week'], 
item['temperature'], 
item['weather'], 
item['wind'])) 


return item 
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第 1 行 ， 确 认 字 符 编码 。 实 际 上 这 一 行 没 多 大 必要 ， 在 Python 3 中 默认 的 字符 编码 就 是 
utf-8。 第 8-9 行 ， 导 入 所 需 的 模块 。 第 13 (T, H time 模块 确定 了 当天 的 年 月 日 ， 并 将 其 作 
为 文件 名 。 后 面 则 是 一 个 很 简单 的 文件 写 入 。 

4 . 修改 settings.py , 决定 由 哪个 文件 来 处 理 获取 的 数据 

Python 3 版 本 的 settings.py 比 Python 2 版 本 的 要 复杂 很 多 。 这 是 因为 Python 3 版 本 的 
settings.py 已 经 将 所 有 的 设置 项 都 写 进去 了 ， 和 暂时 用 不 上 的 都 当成 了 注释 。 所 以 这 里 只 需要 
找到 ITEM PIPELINES 这 一 行 ， 将 前 面 的 注释 去 掉 就 可 以 了 。Settings.py 这 个 文件 比较 大 ， 
这 里 只 列 出 了 有 效 的 设置 。settings.sp 文件 内 容 如 下 : 


$ =*= coding: utf-8 -*- 


I 


# Scrapy settings for weather project 

* 

* For simplicity, this file contains only the most important settings by 
# default. All the other settings are documented here: 

# 

# http: //doc.scrapy.org/en/latest/topics/settings.html 


© MID UY BWNH 


RR 
RO 


BOT_NAME = 'weather' 


RR 
wn 


SPIDER MODULES = ['weather.spiders'] 
NEWSPIDER MODULE = 'weather.spiders' 


PPR 
Oo U^ 


# Crawl responsibly by identifying yourself (and your website) on the User-Agent 
#USER_AGENT = 'weather (*http://www.yourdomain.com)"' 


PRR 
oo N 


#### user add 
20 ITEM_PIPELINES = { 


21 'weather.pipelines.WeatherPipeline':300, 
22 } 
最 后 ， 回 到 weather 项 目下 ， 执 行 命令 : 


scrapy crawl wuHanSpider 
ls 


more *.txt 


得 到 的 结果 如 图 5-28 所 示 。 
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a king@debia ode/scrapy/weather - 口 
'scheduler/dequeued': 2, ^ 
'scheduler/dequeued/memory': 2, 

'scheduler/enqueued': 2, 

'scheduler/enqueued/memory': 2, 

'start time': datetime.datetime(2018, 1, 30, 14, 40, 45, 551636)) 

2018-01-30 22:40:45 [scrapy.core.engine] INFO: Spider closed (finished) 
[king&debian8:-/code/scrapy/weatherS 1s 

20180130.txt scrapy.cfg weather 


king@debian8:~/code/scrapy/weather$ more *.txt 
武汉 01H 308 星期 二 4,-7 多 云 北 风 

武汉 01 月 31 日 星期 三 6,-7 £z 北 风 

武汉 02 月 01 日 星期 四 7,-5 m" 东北 风 

武汉 02 月 02 日 星期 五 8,-4 a 北 风 

武汉 02 月 03 日 星期 六 7,-4 " LES 

武汉 02H 04H 星期 日 7,-3 tz 东风 

武汉 02 月 05 日 星期 一 7,-3 a 东风 

上 海 01 月 30 日 星期 二 4,-3 Li 西北 风 

上 海 01 月 31 日 星期 三 3,-1 a 西北 风 

上 海 02 月 01 日 星期 四 6,-1 " 北 风 

上 海 02 月 02 日 星期 五 6,0 多 云 西北 风 

上 海 02 月 03 日 星期 六 1,-2 m" 西北 风 

上 海 02 月 04 日 星期 日 1,-3 " 西北 风 

上 海 02 月 05 日 星期 一 3,-5 m" 北 风 
king@debian8:~/code/scrapy/weathers [] v 


528 ”保存 结果 为 txt 


至 此 ， 一 个 完整 的 Scrapy 扑 虫 已 经 完成 了 。 这 个 候 取 天 气 的 仆 虫 比 上 一 个 候 取 电影 的 扑 
虫 稍微 复杂 一 点 ， 但 流程 基本 是 一 样 的， 都 是 做 填空 题 而 已 。 


5.4.3 ”数据 存储 到 json 

上 节 已 经 完成 了 一 个 Scrapy 候 虫 ， 并 将 其 息 取 的 结果 保存 到 了 txt 文件 。 但 ext 文件 的 优 
点 仅仅 是 方便 阅读 ， 而 程序 阅读 一 般 都 是 使 用 更 方便 的 json. cvs 等 等 格式 。 有 时 程序 员 更 加 
希望 将 疏 取 的 结果 保存 到 数据 库 中 便于 分 析 统计 。 所 以 ， 本 节 将 继续 讲解 Scrapy editt ptg 
方式 ， 也 就 是 继续 对 pipelines.py 动手 术 。 

这 里 以 json 格式 为 例 ， 其 他 的 格式 都 大 同 小 异 ， 读 者 可 自行 摸索 测试 。 既 然 是 保存 为 
json 格式 ， 当 然 就 少不了 Python 的 json 模块 了 。 幸 运 的 是 json 模块 是 Python 的 标准 模块 ， 
无 须 安装 可 直接 使 用 。 

保存 息 取 结果 ， 那 必定 涉及 了 pipelines.py。 我 们 可 以 直接 修改 这 个 文件 ， 然 后 再 修改 一 
下 settings.py 中 的 ITEM_PIPELINES 项 即 可 。 但 是 仔细 看 看 settings.py 中 的 
ITEM_PIPELINES 项 ， 它 是 一 个 字典 。 字 典 是 可 以 添加 元 素 的 。 因 此 完全 可 以 自行 构造 一 个 
Python 文件 ， 然 后 把 这 个 文件 添加 到 ITEM_PIPELINES 不 就 可 以 了 吗 ? 这 个 思路 是 否 可 行 ， 
测试 一 下 就 知道 了 。 

为 了 “表明 身份 ”， 笔 者 给 这 个 新 创建 的 Python 文件 取 名 为 pipelines2json.py， 这 个 名 
字 简 单 明 了 ， 而 且 显示 了 与 pipellines.py 的 关系 。pipelines2.json 的 文件 内 容 如 下 : 


# -*- coding: utf-8 -*- 
Define your item pipelines here 


Don't forget to add your pipeline to the ITEM PIPELINES setting 
See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html 


Oo 0c 0 NH 


LE 
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import time 


9 import codecs 


10 
11 
12 
13 
14 
15 
16 
T 
18 
Le) 


import json 


class WeatherPipeline (object): 


def process item(self, item, spider): 


today = time.strftime('$Y$m$d', time.localtime()) 
fileName = today + '.json' 
with codecs.open(fileName, 'a', 'utf-8') as fp: 
jsonStr = json.dumps (dict (item)) 
fp.write("$s \r\n" %jsonStr) 
return item 


然后 修改 settings.py 文件 ， 将 pipelines2json 加 入 到 ITEM_PIPELINES 中 去 。 修 改 后 的 
settings.py 文件 内 容 如 下 : 


$ ->= coding: utf=0 =*= 


Opn w N HR 


by 


ow 0 - o0 


10 
alat 
12 
13 
14 
15 
16 


User-Agent 


17 
18 
19 
20 
21 
22 
23 3 


测试 一 下 效果 。 
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= 


Scrapy settings for weather project 


For simplicity, this file contains only the most important settings 


default. All the other settings are documented here: 


http://doc.scrapy.org/en/latest/topics/settings.html 


BOT_NAME = 'weather' 


SPIDER_MODULES = ['weather.spiders'] 
NEWSPIDER_MODULE = 'weather.spiders' 


# Crawl responsibly by identifying yourself (and your website) on the 


#USER_AGENT = 'weather (+http://www.yourdomain.com) ' 


ITEM_PIPELINES = { 


'weather.pipelines.WeatherPipeline':300, 


'weather.pipelines2json.WeatherPipeline':301 


IT 


到 weather 项 目下 执行 命令 : 


scrapy crawl wuHanSpider 
1s 
cat *.json 


得 到 的 结果 如 图 5-29 所 示 。 


# king@debiar ode/scrapy/weathe: 口 

": "\udelc\u5317\u98ce", "temperature": "7,-5", "weather": "\u6674"} ^ 
{"cityDate": "\u6b66\u6c4902\u670802\u65e5", "week": "\u661f\u671f\u4e94", "wind 
I": "\uS317\u98ce", "temperature": "8,-4", "weather": "u9634") 

("cityDate": "Nu6b661u6c4902 0670803 Vu65e5", "week": "iu661fVu671fVuSléd", "wind 
^: "\udelc\u5317\u98ce", "temperature": "7,-4", "weather": "\u6674"} 
("cityDate": "\u6b66\u6c4902\u670804\ubSe5", "week": "\u661f\u671f\u65e5", "wind 
^: "\udelc\u98ce", "temperature": "7,-3", "weather": "\u591a\u4e91"} 
("cityDate": "\u6b66\u6c4902\u670805\ubSe5", "week": "\u661f\u671f\u4e00", "wind 
^: "\udelc\u98ce", "temperature": "7,-3", "weather": "\u9634"} 

("cityDate": "\u4e0a\u6d7701\u670830\u65e5", "week": "Wu66lfiu671fVudeBc", "wind 
": "iu897fNu5317Nu98ce", "temperature": "4,-3", "weather": "\u973e"} 
("cityDate": "\u4e0a\u6d7701\u670831\u65e5", "week": "\u661f\u671£\use09", "wind 
^: "\u897£\u5317\u98ce", "temperature": "3,-1", "weather": "\u9634"} 
{"cityDate": "\u4e0a\u6d7702\u670801\u65e5", "week": "\u661f\u671f\u56db", "wind 
^: "\u5317\u98ce", "temperature": "6,-1", "weather": "\u6674" 

("cityDate": "Au4e0aiu6d7702 0670802 Vu65e5", "week": "Au661fVu671fVu4e94", "wind 
": "\u897£\u5317\u98ce", "temperature": "6,0", "weather": "\u591a\u4e91" 
("cityDate": "\u4e0a\u6d7702\u670803\u65e5", "week": "\u661f\u671f\uS16d", "wind 
I"; "\u897£\u5317\u98ce", "temperature": "1,-2", "weather": "u6674") 

{"cityDate": "\ude0a\u6d7702\u670804\u65e5", "week": "\u661f\u671f\u65e5", "wind 
": "\uB97£\u5317\u98ce", "temperature": "1,-3", "weather": "iu6674") 

("cityDate": "\u4e0a\u6d7702\u670805\u65e5", "week": "\u661f\u671£\use00", "wind 
": "\u5317\u98ce", "temperature": "3,-5", "weather": "\u6674" 
king@debian8:~/code/scrapy/weathers [] v 


图 5-29 保存 结果 为 json 


从 图 5-29 来 看 试验 成 功 了 。 按 照 这 个 思路 ， 如 果 要 将 结果 保存 成 csv 等 格式 ， 


应 该 怎么 修改 就 很 明显 了 。 


5.4.4 数据 存储 到 MySQL 


settings.py 


数据 库 有 很 多 ，MySQL、Sqlite3、Access、Postgresql 等 等 ， 可 选择 的 范围 很 广 。 笔 者 选 


择 的 标准 是 ，Python 支持 良好 、 能 够 跨 平台 、 使 用 方便 ， 其 中 


Python 标准 库 默认 支持 


Sqlite3 。 但 谁 让 Sqllit3 声名 不 显 呢 ，Access 不 能 跨 平台 。 所 以 这 里 笔者 选择 名 气 最 大 ， 
Python 支持 也 不 错 的 MySQL. MySQL 使 用 人 数 众 多 ， 资 料 随处 可 见 ， 出 现 问题 咨询 也 挺 方 


便 。 就 是 它 了 。 


在 Linux 上 安装 MySQL 很 方便 。 首 先 连接 Putty 后 ， 使 用 root 用 户 权 限 ， 执 行 命令 : 


apt-get install mysql-server mysql-client 


在 安装 过 程 中 ， 会 要 求 输入 MySQL 用 户 root 的 密码 (此 root 非 彼 root， 一 个 是 系统 用 


P root， 一 个 是 MySQL 的 用 户 root) 。 这 里 设置 MySql 的 root 用 户 密码 为 debian8 
MySQL 安装 完毕 后 ， 默 认 是 自动 启动 的 。 首 先 连接 到 MySQL 上 ， 查 看 MySQL 的 字符 


编码 。 执 行 命令 : 


mysql -u root -p 
SHOW VARIABLES LIKE "character$"; 
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执行 结果 如 图 5-30 所 示 。 


copyright (c) 2000, 2016, Oracle and/or its affiliates. All rights reserved. 


oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 
lowners. 


[Type 'help;' or '\h' for help. Type 'Ac' to clear the current input statement. 


Imysqi» SHOW VARIABLES LIKE 'charactert' 


Character set connection | utf8 
character set database | latini 
character set filesystem | binary 
Character set results utte 
character_set_server latini 


utf8 


rows in set (0.00 sec) 


imysqi> [] 


5-30. MySQL 默认 字符 编码 


其 中 ，character_set_database 和 character set server 设置 的 是 latin! 编码 ， 刚 才 用 Scrapy 
采集 的 数据 都 是 utf8 编码 。 如 果 直 接 将 数据 加 入 数据 库 ， 必 定 会 在 编程 处 理 中 出 现 乱码 问 
题 ， 所 以 要 稍微 修改 一 下 。 网 上 流传 着 很 多 彻底 修改 MySQL 默认 字符 编码 的 帖子 ， 但 由 于 
版 本 的 问题 ， 不 能 通用 。 所 以 只 能 采取 笨 方 法 ， 不 修改 MySQL 的 环境 变量 ， 只 在 创建 数据 
库 和 表 的 时 候 指定 字符 编码 。 创 建 数据 库 和 表格 ， 在 MySQL 环境 下 执行 命令 : 

CREATE DATABASE scrapyDB CHARACTER SET 'utf8' COLLATE 'utf8 general Ci'; 

USE scrapyDB; 

CREATE TABLE weather ( 

id INT AUTO_INCREMENT, 

cityDate char(24), week char(6), 


img char(20), 

temperature char(12), 

weather char(20), 

wind char(20), 

PRIMARY KEY(id) )ENGINE-InnoDB DEFAULT CHARSET-utf8; 


执行 结果 如 图 5-31 所 示 。 
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oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 


[Type 'help;' or 'Vh' for help. Type '\c' to clear the current input statement. 


cityDate char(24), week char(6), 

img char(20), 

temperature char(12), 

weather char(20), 

wind char(20), 

PRIMARY KEY(id) )ENGINE-InncDB DEFAULT CHARSETeutf8; 


图 5-31 创建 数据 库 


其 中 ， 第 一 条 命令 创建 了 一 个 默认 字符 编码 为 utf8、 名 字 为 scrapyDB 的 数据 库 ， 第 二 条 
命令 进入 数据 库 ， 第 三 条 命令 创建 了 一 个 默认 字符 编码 为 tB KFA weather 的 表格 。 查 
看 这 个 表格 的 结构 ， 如 图 5-32 所 示 。 


cityDate char (24) 
week char (6) 
amg char (20) 
temperature | char (12) 
char (20) 
char (20) 


mysql> 


图 5-32 ”查询 表 结构 


由 图 5-32 可 以 看 出 表格 中 的 项 基本 与 wuHanSpider 疏 取 的 项 相同 。 至 于 多 出 来 的 那 一 项 
id， 是 作为 主键 存在 的 。MySQL 的 主键 是 不 可 重复 的 ， 而 wuHanSpider MQM PRA foe 
这 个 条 件 的 ， 所 以 还 需要 另外 提供 一 个 主键 给 表格 更 加 合适 。 

创建 完 数据 库 和 表格 ， 下 一 步 创建 一 个 普通 用 户 ， 并 给 普通 用 户 管理 数据 库 的 权限 。 在 
MySQL 环境 下 ， 执 行 命令 : 

INSERT INTO mysql.user (Host,User, Password) 
VALUES ("%", "CrawlUSER", password ("crawl123") ); 

INSERT INTO mysql.user (Host, User, Password) 
VALUES ("localhost", "crawlUSER", password ("crawll23")); 

GRANT all privileges ON scrapyDB.* to crawlUSER@all IDENTIFIED BY 
'craw1123'; 

GRANT all privileges ON scrapyDB.* to crawlUSER@localhost IDENTIFIED BY 
'crawll123'; 


执行 结果 如 图 5-33 所 示 。 
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=o 


a", "crawlUSER",passwor «| 


la ("eraw1123")) 7 
query OX, 1 row affected, 3 warnings (0.00 sec) 


mysql> INSERT INTO mysql .user (Host,User, Password) VALUES("localhost", "crawlUSER" 
password ("craw1123")); 


Query OK, 1 row affected, 3 warnings (0.00 sec) 


Ínysql» GRANT all privileges ON scrapyDB.* to crawlUSERGall IDENTIFIED BY 'crawli 


mysql> GRANT all privileges ON scrapyDB.* to craw1USER@localhost IDENTIFIED BY ' 


Inysai> exit; 


图 5-33 ”创建 新 用 户 、 赋 予 管理 权限 


第 1 条 命令 创建 了 一 个 用 户 名 为 crawlUSER 的 远程 用 户 ， 该 用 户 只 能 远程 登录 ， 不 能 本 
地 登录 。 第 2 条 命令 创建 了 一 个 用 户 名 为 crawlUSER 的 本 地 用 户 ， 该 用 户 只 能 本 地 登录 ， 不 
能 远程 登录 。 第 3~4 条 命令 则 赋予 了 crawlUSER 用 户 管理 scrapyDB 数据 库 的 所 有 权限 。 最 
后 退出 MySQL。 至 此 ， 数 据 库 方面 的 配置 已 经 完成 ， 静 待 Scrapy 来 连接 了 。 

Python 的 标准 库 中 没有 直接 支持 MySQL 的 模块 。 在 Python 第 三 方 库 中 能 连接 MySQL 
的 不 少 ， 这 里 笔者 选择 使 用 最 广 的 PyMySQL3 模块 。 


1.Linux 中 安装 PyMySQL3 模块 


在 Python 2 的 年 代 ， 连 接 MySQL 的 首选 是 MySQLdb 模块 。 到 了 Python 3 横行 ， 
MySQLdb 模块 终于 被 淘汰 了 ， 好 在 有 功能 完全 一 致 的 模块 蔡 代 了 它 : PyMySQL3 模块 。 


在 Linux 下 安装 PyMySQL3 模块 ， 最 简单 的 方法 是 借助 Debian 庞大 的 软件 库 〈 可 以 
说 ， 只 要 不 是 私有 软件 ，Debian 软件 库 总 不 会 让 人 失望 》。 在 终端 下 执行 命令 : 


python3 -m pip install pymysql3 


执行 结果 如 图 5-34 所 示 。 


B® king@debians: ~ 一 口 x 


king@debian8:~$ su ^ 
密码 : 
root@debian8:/home/king# python3 -m pip install pymysql3 
Collecting pymysqi3 
Downloading https://mirrors.ustc.edu.cn/pypi/web/packages/82/c4/55b23360d9d719 
5ef5e2e5266b9953£562c1a3c5cele4f71df6c72587a0e/PyMySQL3-0.5.tar.gz 
Building wheels for collected packages: pymysql3 
Running setup.py bdist wheel for pymysql3 ... done 
Stored in directory: /root/.cache/pip/wheels/a3/57/4c/cf6f8211dcb6243f94a374be 
938290b2aa6cc5352c09055£62 
Successfully built pymysqi3 
Installing collected packages: pymysqi3 
Successfully installed pymysql3-0.5 
rootédebian8:/home/kingé 
root @debian8: /home/king# 


5-34 Linux 安装 PyMySQL3 模块 


pe = 安装 这 个 模块 必须 是 root 用 户 权限 。 


178 


2. Windows 中 安装 PyMySQL3 模块 


这 个 模块 在 Windows 下 安装 时 也 必须 是 管理 员 权 限 ， 所 以 首先 得 用 管理 员 权限 打开 终 
端 ， 如 图 5-35 所 示 。 


mo 
打开 文件 位 置 们 


HES} 
阳 到 [开始] RU) 


TRUES) 


发 送 到 (N) 


mum 

复制 (C) 
RRS) 
Lu] 
ESZ) 


BER) 


5-35 ”使 用 管理 员 权限 


在 Windows 中 安装 PyMySQL3 最 简单 的 方法 还 是 pp， 如 果 不 觉得 麻烦 也 可 以 下 载 源 码 
安装 ， 执 行 命令 : 
pip install pymsql3 


执行 结果 如 图 5-36 所 示 。 


RALPH «c» 2009 Microsoft i 保留 所 有 权利 。 


:Windows \systen32>pip install pynysql3 
ollecting pynysql3 
Using cached https://pypi.doubanio.con/packages/82/c4/55b23368d9d7195ef5e2e526 
659953£562c1a3c5ceie4f71dF6c72587aBe/PyMySQL3-0.5 tar. gz 
|Installing collected packages: pynysql3 
Running setup.py install for pynysql3 ... done 
Successfully installed pymysq13-8.5 


:\Windous\systen32>., 


图 5-36 Windows 安装 PyMySQL3 模块 
Python 模块 已 经 准备 完毕 ，MySQL 的 库 表 格 也 准备 完毕 ， 现 在 可 以 编辑 
pipelines2mysql.py 了 。 在 项 目 名 为 weather 的 Scrapy 项 目 中 的 pipelines.py 同 层 目 录 下 ， 使 用 
文本 编辑 器 编写 pipelines2mysql.py， 编 辑 完毕 的 pipeliens2mysql.py 的 内 容 如 下 : 


# -*- coding: utf-8 -*- 


* 
* Don't forget to add your pipeline to the ITEM PIPELINES setting 


a 

2 

3 # Define your item pipelines here 

4 

5 

6 # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html 
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7 


8 import pymysql 
9 
10 class WeatherPipeline (object): 


ap def process item(self, item, spider): 
12 cityDate = item['cityDate'] 

13 week = item['week'] 

14 temperature = item['temperature'] 
15 weather = item['weather'] 

16 wind = item['wind'] 

17 

18 conn = pymysql.connect ( 

19 host = 'localhost', 

20 port = 3306, 

21 user = 'crawlUSER', 

Io passwd - 'crawll23', 

23 db = 'scrapyDB', 

24 charset = 'utf8') 

25 cur = conn.cursor() 

26 mysqlCmd = "INSERT INTO weather(cityDate, week, temperature, 


weather, wind) VALUES('$s', '$s', '$s', '$s', '$s');" %(cityDate, week, 


temperature, weather, wind) 


P cur.execute (mysqlCmd) 
28 cur.close() 

29 conn.commit () 

30 conn.close() 

31 

32 return item 


第 1 TARE T eH E SS, 35 8 行 导入 了 所 需 的 模块 。 第 25-30 行使 用 
PyMySQL 模块 将 数据 写 入 了 MySQL 数据 库 中 。 最 后 在 settings.py 中 将 pipelines2mysql.py 加 
入 到 数据 处 理 数列 中 去 。 修 改 后 的 settings.py 内 容 如 下 : 


# -*- coding: utf-8 -*- 


Scrapy settings for weather project 


Os WN HE 
* 


# For simplicity, this file contains only the most important settings 
by 
default. All the other settings are documented here: 


http://doc.scrapy.org/en/latest/topics/settings.html 


wo OID 


10 
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11 BOT NAME = 'weather' 

ale 

13 SPIDER MODULES - ['weather.spiders'] 

14 NEWSPIDER MODULE = 'weather.spiders' 

15 

16 # Crawl responsibly by identifying yourself (and your website) on the 
User-Agent 

17 4USER AGENT = 'weather (*http://www.yourdomain.com)"' 

18 

19 #### user add 

20 ITEM PIPELINES - ( 

21 'weather.pipelines.WeatherPipeline':300, 

22 'weather.pipelines2json.WeatherPipeline':301, 

23 'weather.pipelines2mysql.WeatherPipeline':302 

24 } 


实际 上 就 是 把 pipelines2 mysql 加 入 到 settings.py 的 ITEM. PIPELINES 项 的 字典 中 去 就 可 
以 了 。 

最 后 运行 scrapy MEH, AA MySQL 中 的 结果 ， 执 行 命令 : 

scrapy crawl wuHanSpider 

mysql -u crawlUSER -p 

use scrapyDB; 

select * from weather; 


执行 结果 如 图 5-37 所 示 。 
B. 
^ 

select * from weather; 
cityDate | week | img | weather | wind 1 
武汉 01 月 30 日 星期 1 多 云 IER 1 
武汉 01 月 30 日 星期 二 (B 1 北 风 1 
武汉 01 月 31 日 星期 三 1 多 云 1 北 风 1 
武汉 02 月 01 日 | 星期 四 1 晴 1 东北 风 1 
武汉 02 月 02 日 星期 五 (B 1 北 风 1 
武汉 02 月 03 日 星期 六 D" 1 tA 1 
武汉 02 月 04 日 星期 日 1 多 云 1 东风 1 
武汉 02 月 05 日 星期 一 (B 1 东风 1 
上 海 01 月 30 日 | 星期 二 (8 1 西北 风 1 
上 海 01 月 31 日 星期 三 ia 1 西北 风 1 
上 海 02 月 01 日 | 星期 四 |" 1 北 风 1 
上 海 02 月 02 日 星期 五 1 多 云 1 北 风 1 
上 海 02 月 03 日 星期 六 |" 1 西北 风 1 
上 海 02 月 04 日 星期 日 |" 1 西北 风 1 
上 海 02 月 05 日 星期 一 |" 1 北 风 1 

15 rows in set (0.00 sec) 

Inysqi> [] v 


5-37 MySQL 中 数据 


MySQL 中 显示 PyMySQL3 模块 存储 数据 有 效 。 这 个 Scrapy 项 目 到 此 就 顺利 完成 了 。 
一 般 来 说 为 了 阅读 方便 ， 结 果 保 存 为 txt 就 可 以 了 。 如 果 怜 取 的 数据 不 多 ， 需 要 存 入 表 
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格 备查 ， 那 可 以 保存 为 cvs 或 json ERDE. WR ie MEMBER A, ARE EG 
考虑 用 MySQL 吧 。 专 业 的 软件 做 专业 的 事情 。 


5.5 Scrapy MERSE : 获取 代理 


Earp ffe d m ZPO RPO, MEE ERATE. DIA cityDate 中 显示 了 城市 ， 显 
示 了 日 期 ， 但 并 没有 显示 具体 的 年 月 日 。 如 果 数 据 比 较 少 ， 还 可 以 慢 慢 地 反 推 计算 ， 如果 数 
据 多 了 ， 那 就 太 麻烦 了 。 这 就 涉及 了 有 怜 取 数据 后 的 处 理 ， 本 节 我 们 讲解 一 下 怜 取 数 据 后 如 何 


5.5.1 项 目 准 备 

本 节 将 从 网 站 上 获取 免费 的 代理 服务 器 。 使 用 Scrapy 获取 代理 服务 器 后 ， 一 一 验证 哪些 
代理 服务 器 可 用 ， 最 终 将 可 用 的 代理 服务 器 保存 到 文件 。 

首先 要 做 的 是 找到 免费 代理 服务 器 的 来 源 。 浏 览 器 中 打开 百度 ， 搜 索 “ 免 费 代理 服务 
器 ”， 搜 索 结果 如 图 5-38 所 示 。 


e, 
Baas 免费 代理 服务 器 百度 二 下 
O ASHE: ptay 在 线 国外 MHURAN AWATEA 


代理 - 高 速 http 代 理 ip 每 天 更 
快 代理 专业 为 你 提供 代理 jp 购买 | 代理 时 务 器 随机 五 位 沿 高 匿 代理 售 医 代理 pl 让 虫 代理 pl 串 
BRAD E Ley E RSet SHe Rice SEARO 
www kuaidaili. com -ERE - 258 


ip hi bc E 国内 速 -有 1+ 


有 代理 ip 资源 网 每 日 发 布 各 神 最 茜 免 费 代理 jp、 代理 导 务 器 地 址 为 主 


常年 提供 免责 代理 ip、q9 代 理 ip 、httpip 代 理 地 址 、 国 内 ip 代理 等 网 基 
有 代理 |P i ip AMPED 


a 2013082178 
MERANI. BMT EU AE LARERE (ATT AEA RUBIO 、 
国内 外 的 很 多 ,这 种 属于 通过 第 三 方 抓 取 的 ,这 种 站 点 也 很 多 ,百度 


器 是 什么 2 4 个 回答 2013.08-13 
3 个 回答 2016-04-11 


538 ”搜索 免费 代理 服务 器 


先 在 www.proxy360.cn 中 获取 代理 服务 器 。 如 果 数 量 不 够 ， 可 以 在 www.xicidaili.com 中 
获取 代理 服务 器 。 

在 浏览 器 中 打开 这 两 个 站 点 ， 观 察 所 需 的 项 目 。 发 现 大 部 分 的 项 目 都 相同 ， 共 有 的 项 目 
有 服务 器 IP、 服 务 器 端口 、 是 否 匿名 、 服 务 器 位 置 。xicidaili 站 点 中 独 有 的 项 有 服务 协议 。 
最 后 还 应 该 添加 获取 服务 器 的 来 源 站 点 。 知 道 了 这 些 内 容 ，items.py 文件 基本 已 经 出 来 了 。 
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5.5.2 ”创建 编辑 Scrapy 爬虫 


打开 Putty 连接 到 Linux。 在 工作 目录 下 创建 Scrapy 项 目 ， 并 根据 提示 依照 spider 基础 模 


版 创建 一 个 spider。 执 行 命令 : 
cd 
cd code/scrapy 
scrapy startproject getProxy 
cd getProxy 
scrapy genspider proxy360Spider proxy360.cn 


这 里 创建 了 一 个 名 为 getProxy 的 Scrapy 项 目 ， 并 创建 了 一 个 名 为 proxy360Spider.py 的 


Spider 文件 。 
1 . 修改 items.py 
根据 前 面 的 分 析 ，items.py 应 该 包含 6 项 。items.py 文件 内 容 如 下 : 


1 f —*= coding: utf-8 =*= 


2 

3 # Define here the models for your scraped items 

4d 

5 4 See documentation in: 

6 # http://doc.scrapy.org/en/latest/topics/items.html 
1 

8 import scrapy 

9 

10 

11 class GetproxyItem(scrapy.Item): 


12 # define the fields for your item here like: 
13 # name = scrapy.Field() 

14 ip = scrapy.Field() 

15 port = scrapy.Field() 

16 type = scrapy.Field() 

17 loction = scrapy.Field() 

18 protocol = scrapy.Field() 

19 source = scrapy.Field() 


需要 几 项 ， 就 填 入 几 项 。 最 简 模式 就 是 只 要 代理 P 和 端口 。 这 个 文件 没什么 好 解释 的 ， 


比较 简单 直 白 。 


2 . 修改 Spider 文件 proxy360Spider.py 
先 把 proxy360Spider.py 文件 放 到 一 边 。 使 用 scrapy shell 命令 查看 一 下 连接 网 站 返回 


果 和 数据 ， 进 入 getProxy 项 目下 的 任意 目录 下 ， 执 行 命令 : 


scrapy shell http://www.proxy360.cn/Region/China 


的 结 
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n MERKA E 2 版 
执行 结果 如 图 5-39 所 示 。 


tMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats 
[2016-07-31 19:22:32+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMid 
|dleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddlew 


19:22:3240800 [scrapy] INFO: Enabled item pipelines: GetproxyPipeline 
19:22:32+0800 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 


19:22:32+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
19:22:32+0800 [default] INFO: Spider opened 
19:22:32+0800 [default] DEBUG: Crawled (200) «GET http://www.proxy360 
.cn/Region/China» (referer: None) 


[s] Available Scrapy objects: 
crawler  <scrapy.crawler.Crawler object at Ox7fccel9f3910» 
item 


nse 


spider «Spider ‘default’ at 0x7fcce0b8d150> 
Useful shortcuts: 
shelp() Shell help (print this help) 
fetch(req_or_url) Fetch request (or URL) and update local objects 
view(response) View response in a browser 


图 5-39 scrapy shell 


从 response 的 返回 代码 可 以 看 出 request 请 求 正常 返回 。 再 查看 一 下 response 的 数据 内 
容 ， 执 行 命令 : 


response.xapth('/*').extract() 


执行 结果 如 


5-40 所 示 。 


: class="tbBottomLine">\r\n \u603b\u7684\ ||| 
Jusbe4\us206\r\n </span>\z\n <span style="width: 30p 
xz" class="tbBottomLine">\r\n \us3ef\u7528\r\n 
</span>\z\n <span style="width:100px: text-align:center; " class 
|-"tbBortomLine"»VzAn \u901f\uSea6\u6d4b\usbes\r\n 
</span>\z\n </div>\r\n\zr\n\r\a  \r\n <div class="proxyli 
sitem" name-"list proxy ip"»Vrin <div style="float:left: display:blo 
ck; width: 630px:">\r\n <span classe"tbBottomLine" style="width: 140px: 
">\r\n ED </span>\z\n <span 
oclasse"tbBottomLine" styie="widen:S0px:">\r\n 3228\r\n 
</span>\r\n <span class-"tbBottomLine " style="width? 7px: ">\r\n 


29ad8\u533f\r\n </span>\r\n <span class=" 
|rbBotromLine " — SS eT Width: 70px; ">\r\n \ude2d\us6fa\r\n 


</span>\r\n <span class="tbBottomLine " style="width: 80px;">\r\: 
09\u670805\u65e5\r\n </span>\r\n <span cli 
J-"tbBottomLine " style="width:80px;">\r\n 3.44(70\u7968) \r\n 
</span>\r\n <span class="tbBottomLine " style="width: 60px:">\r 
^a 3.44\r\n </span>\r\n <span class="tbBott 
lomLine " style="width:30px;">\r\n 24\u5929\r\n </span> 
IE </div>\r\n <div style="width:100px; float:left;">\r\n 
<div id="cti00_ContentPlaceHolderi_repProxyList_ct101_RatingSpee 
d" cicle="3.44285714285714">\r\n\t\t<input type="hidden" name="ctl00S$ContentPlac 
jeHolderiSrepProxyListSctlO1SRatingSpeed RatingExtender ClientState" ide"ctl00 Co 
|ntentPlaceHolderi repProxyList ct101 RatingSpeed RatingExtender ClientState" val ~ 


5-40 response 数据 


返回 的 数据 中 含有 代理 服务 器 (难道 返回 代码 为 200 时 ， 还 有 返回 数据 不 含 代理 服务 器 
的 吗 ? 这 个 还 真有 ) 。 测 试 一 下 如 何 使 用 选择 器 在 response 中 的 得 到 所 需 的 数据 。 在 浏览 器 
中 打开 http:/www.proxy360.cn/Region/China， 在 网 页 的 任意 空白 处 右 击 ， 选 择 “ 查 看 网 页 源 
代码 ”， 打 开 页 面 的 源 代码 网 页 ， 如 图 5-41 所 示 。 
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Q' D view-sourcewww.proxy360.cn/Region/China 
应 用 O 从 Firefox 导 入 [E] EF G meee Y sEm? Y mE OC study 


165 

166 <div class-"proxylistitem" name-"list proxy ip^ 

167 <div style-"flost:left; display:block; width:630px; ^? 
168 <span class-"tbBottomLime" style="width:140px:"> 
169 61. 185. 219. 126 

170 spar 

171 span class="thBottomLine” style=“width:50px; "> 
172 3128 

173 </span> 

174 span class="tbBottonLine ^ style="width: TOpx;"^ 
175 aE 

176 </span> 

77 <span class="tbBottomLine " style="width: TOpx:"> 
178 中 国 

179 </span> 

180 <span class="thBottonLine " style="width: 80pe:”> 
181 095058 

182 </span> 

183 <span class="tbBottonLine ^ style="width: 80px ;“> 
184 3.36(22 票 ) 

185 </span> 

186 span class="tbBottomLine " style="width: 60px: > 
187 3.36 

188 spar? 

189 span class-"tbBottonlime " style="width: 30px ;"> 
190 2 天 

191 </span> 

192 </div> 

193 div style="width: 100px; float: left ;” 

194 div id=" ct 100 ContentPlaceHolderl repProxyList2 ct101 Rati: 


5-4 页 面 源 代 码 


观察 一 下 ， 似 乎 所 有 的 数据 块 都 是 以 <div class="proxylistitem" name="list_proxy_ip"> 这 个 
tag 开头 的 。 在 scrapy shell 中 测试 一 下 ， 回 到 scrapy shell 中 ， 执 行 命令 : 


subSelector = response.xpath('//div[@class="proxylistitem" and @name 
="list_proxy_ip"]') 

subSelector.xpath('.//span[1]/text ()') «extract () [0] 

subSelector.xpath(*‘.//span[2]/text()’) .extract () [0] 

subSelector.xpath('.//span[3]/text ()") .extract () [0] 

subSelector.xpath('.//span[4]/text ()") .extract () [0] 


执行 结果 如 图 5-42 所 示 。 


# king@det 
In [9]: subSelector = response.xpath('//div[@class="proxylistitem" and Gname-"li ^ 
|jst proxy ip"]') 


In [10]: subSelector xpath (*.//span[1]/text () ') -extract () [0] 
Out [10]: u'VzV $8.222.254.11\r\n Ey 
In [11]: subSelector.xpath('.//span[2]/text () ') extract () [0] 
fout[11]: u'\r\n 3128\r\n $ 


~/code/crawler/scrapyProject/getProxy/getProxy 


In [12]: subSelector.xpath('.//span[3]/text () ') .extract () [0] 
out [22]: u'\r\n \ugade\us33f\r\n ' 


lin [13]: subSelector.xpath('.//span[4]/text ()') extract () [0] 
Out[13]: u'\r\n \u4e2d\u56fd\r\n id 


In [14]: 


5-42 proxy360Spider 测试 选择 器 


所 得 数据 堪 右 两 侧 都 有 很 多 的 空格 。 | 
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现在 如 何 用 选择 器 从 response 中 获取 所 需 数据 的 方法 也 出 来 了 ， 接 下 来 可 以 开始 编写 


Spider 文件 proxy360Spiderpy。proxy360Spiderpy 的 内 容 如 下 : 


1 # -*- coding: utf-8 -*- 

2 import scrapy 

3 from getProxy.items import GetproxyItem 
4 

5 class Proxy360Spider (scrapy.Spider): 


6 name = "proxy360Spider" 
i allowed domains = ["proxy360.com"] 
8 nations - 


['Brazil','China','America', 'Taiwan', 'Japan', 'Thailand', 'Vietnam', 'bahrein'] 


9 start urls - [] 

10 for nation in nations: 

11 start urls.append('http://www.proxy360.cn/Region/' * nation) 

Ho 

als} 

14 def parse(self, response): 

15 subSelector = response.xpath('//div[@class="proxylistitem" and 
@name="list_proxy_ip"]') 

16 items = [] 

ay for sub in subSelector: 

18 item = GetproxyItem() 

19 item['ip'] = sub.xpath('.//span[1]/text()').extract() [0] 

20 item['port'] = sub.xpath('.//span[2]/text()').extract() [0] 

21 item['type'] = sub.xpath('.//span[3]/text()').extract() [0] 

22 item['loction'] = sub.xpath('.//span[4]/text() ') .extract () [0] 

23 item['protocol'] - 'HTTP' 

24 item['source'] = 'proxy360' 

25 items .append (item) 

26 return items 


在 http://www.proxy360.cn/Region/China 页 面 中 并 没有 显示 服务 器 使 用 的 协议 。 一 般 都 是 


HTTP 协议 ， 所 以 item[protocol] 统 一 设置 成 了 HTTP。 而 数据 来 源 都 是 proxy360 网 站 ， 
item['source'] 都 设置 成 了 proxy360。 
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3 . 修改 pipelines.py， 处 理 Spider 的 结果 
这 里 还 是 将 Spider 的 结果 保存 为 txt 格式 ， 以 便于 阅读 。pipelines.py 文件 内 容 如 下 : 


# -*- coding: utf-8 -*- 
Define your item pipelines here 


Don't forget to add your pipeline to the ITEM PIPELINES setting 
See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html 


- 00 50 NH 
LIE 


8 import codecs 
9 
10 class GetproxyPipeline (object): 


TL def process item(self, item, spider): 

12 fileName = 'proxy.txt' 

3 with codecs.open(fileName, 'a', 'utf-8') as fp: 

14 fp.write("('$s': '$s://$s:$s']||Nt $s Nt $s \t %s \r\n" 

15 $(item['protocol'].strip(), item['protocol'].strip(), 
item['ip'] .Strip(), item['port'].strip(), item['type'].strip(), 
item['loction'].strip( ), item['source'].strip())) 

16 return item 


在 14 {TPA SRB, EA SWEAT ER EC {'http"'http://1.2.3.4:8080"}) ME 
串 中 分 离 出 来 。 在 15 行 中 ， 写 入 文件 时 使 用 了 strip0) 函 数 去 除 所 得 数据 左右 两 边 的 空格 。 
4 . 修改 settings.py， 决定 由 哪个 文件 来 处 理 获取 的 数据 


settings.py 稍 作 修改 即 可 。 将 pipelines.py 添加 到 ITEM_PIPELINES 中 去 就 能 解决 问题 。 
settings.sp 文件 内 容 如 下 : 


$ =t- coding: utf- =*= 


Scrapy settings for getProxy project 


心 wN 
*- 


# For simplicity, this file contains only the most important settings 
by 
default. All the other settings are documented here: 


http://doc.scrapy.org/en/latest/topics/settings.html 


v 0 - 0 
"eode dE te 


10 

11 BOT NAME = 'getProxy' 

12 

13 SPIDER MODULES - ['getProxy.spiders'] 

14 NEWSPIDER MODULE = 'getProxy.spiders' 

15 

16 # Crawl responsibly by identifying yourself (and your website) on the 
User-Agent 

17 #USER_AGENT = 'getProxy (+http://www. yourdomain.com) ' 

18 

H9 

20 ### user add 

21 ITEM PIPELINES - ( 

22 'getProxy.pipelines.GetproxyPipeline':100 

230p 


最 后 


P 


到 项 目 getProxy 目录 下 ， 执 行 命令 : 
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scrapy crawl proxy360Spider 
ls 

wc -I proxy.txt 

more proxy.txt 


执行 结果 如 图 5-43 所 示 。 


WP king@debian8: ~/code/scrapy/getProxy 一 口 x: 

('HTTPS': ‘HTTPS: 34.20.72:808')!| KH 山东 烟台 xicidaili a 
('HTTPS': ‘HTTPS: 14.92.128:8118'JTT m 山东 烟台 xicidai 

2i 

('HTTPS': 'HTTPS://180.175.237.78:8118' J| mu 山东 烟台 xicidai 

1i 

('HTTPS': 'HTTPS://123.116.242.190:8118']|| 高 匿 山东 烟台 xicidai 

1 

('HTTPS': 'HTTPS://218.94.252.178:8118']|| 高 匿 山东 烟台 xicidai 


TTP: //61.135.217.7:80"} 11 高 匿 山东 烟台 xicidaili 
TTP: //122.114.31.177:808")|| EE 山东 烟台 xicidaili 
"HTTP: //123.185.130.119:8118"} 11 L1. 山东 烟台 xicidai 
('HTTPS': 'HTTPS://59.59.215.30:808')]| RH 山东 烟台 xicidaili 
('HTTPS': "HTTPS: //1 高 匿 山东 烟台 xicidaili 
('HTTPS': 'HTTPS: L1 山东 烟台 xicidai 
1i 
('HTTPS': 'HTTPS://112.81.30.60:8118']|| L1 山东 烟台 xicidai 
2i 
('HTTP': "HTTP: //180.123.27.175:9999"} 11 LI 山东 烟台 xicidai 
1i 
('HTTP': 'HTTP://119.148.160.71:808')]| HE 山东 烟台 xicidaili 
TTP://218.58.144.4:8118']]| WM 山东 烟台 xicidails 


5-43 scrapy crawl proxy360Spider 
得 到 的 结果 没什么 问题 。 可 花 了 这 么 长 时 间 最 后 只 得 到 了 144 个 数据 的 结果 ， 效 率 也 太 
低 了 点 吧 。 不 过 没关系 ， 再 给 它 一 个 Spider 就 可 以 了 ， 一 个 站 点 的 数据 不 够 就 再 加 一 个 站 
点 。 如 果 还 不 够 ， 就 继续 增加 站 点 吧 ! 


5.5.3 多 个 Spider 
按照 一 个 Spider 的 思路 ， 得 到 的 proxy 数据 不 够 多 ， 则 可 以 在 www.xicidaili.com 中 获取 
代理 补足 。 到 项 目 getProxy 目录 下 ， 执 行 命令 : 


cd 

cd code/scrapy 

cd getProxy 

scrapy genspider xiciSpider xicidaili.com 


创建 一 个 名 为 xiciSpiderpy 的 Spider 文件 。items.py 无 须 修改 了 ， 直 接 对 xiciSpider.py 做 
修改 就 可 以 了 。 我 们 还 是 先 用 scrapy shell 命令 来 确定 如 何 获 取 数 据 ， 执 行 命令 : 


scrapy shell http://www.xicidaili.com/nn/2 


得 到 的 结果 如 图 5-44 所 示 。 
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这 里 发 现 一 个 问题 。respnose 返回 的 代码 是 500， 要 知道 返回 码 是 200 才 是 正常 返回 
浏览 器 中 打开 http://www.xicidaili.com/nn/2 是 了 


[2016-07-31 20:28:10+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 

[2016-07-31 20:28:10+0800 [xiciSpider] INFO: Spider opened 

[2016-07-31 20:28:1040800 [xiciSpider] DEBUG: Retrying «GET http://www.xicidaili. 

[com/nn/2» (failed 1 times): 500 Internal Server Error 

2016-07-31 20:28:10+0800 [xiciSpider] DEBUG: Retrying «GET http://www.xicidaili. 

lcom/nn/2> (failed 2 times): 500 Internal Server Error 

2016-07-31 20:28:1040800 [xiciSpider] DEBUG: Gave up retrying «GET http://www.xi 

lcidaili.com/nn/2> (failed 3 times): 500 Internal Server Error 

2016-07-31 20:28:10+0800 [xiciSpider] DEBUG: Crawled (500) «GET http://www.xicid 

jaili.com/nn/2> (referer: None) 

[s] Available Scrapy objects: 

[s] crawler  <scrapy.crawler.Crawler object at 0x7f5b39055910» 

[s] item O 
a burpilla d 


x 2 Bp 
Settings <scrapy-sectings-setcings Object at 0x7f5b39a4e750» 

[s] spider <XicispiderSpider 'xiciSpider' at 0x7f5b381ef190> 

[s] Useful shortcuts: 

[s] shelp() Shell help (print this help) 
fetch(req_or_url) Fetch request (or URL) and update local objects 
view(response) View response in a browser 


5-44 scrapy shell 


。 在 


E 常 显示 的 ， 而 该 网 页 并 不 需要 登录 ， 那 就 是 


说 并 不 涉及 cookie. FA scrapy shell 请 求 页 面 和 用 浏览 器 请 求 页 面 用 的 是 同一 IP。 也 不 存在 IP 
封锁 的 问题 。 剩 下 的 就 只 有 headers 中 User-Agent 的 问题 了 。 除 去 所 有 的 不 可 能 ， 最 后 那 一 
选项 大 致 就 是 正确 答案 。 


有 的 网 站 会 检查 headers, nil 
虫 的 headers 则 拒绝 访问 。 所 以 在 这 是 


了 。 修 改 settings.py 文件 内 容 如 下 : 


# -*- coding: utf-8 -*- 


# Scrapy settings for getProxy project 


* 


# default. All the other settings are documented here: 


+ 

+ 

5 
10 


http://doc.scrapy.org/en/latest/topics/settings.html 


11 BOT_NAME = 'getProxy' 


12 


13 SPIDER_MODULES = ['getProxy.spiders'] 
14 NEWSPIDER_MODULE = 'getProxy.spiders' 


15 


在 Scrapy 中 的 确 是 有 默认 的 headers， 但 这 个 headers 与 浏览 器 的 headers 是 有 区 别 的 。 
E 常 浏览 器 的 headers 网 站 则 予以 通过 ， 而 机 器 人 或 者 说 疏 
有 只 需要 给 scrapy 一 个 浏览 器 的 headers 就 可 以 解决 问题 


a 
2 
3 
4 
5 # For simplicity, this file contains only the most important settings by 
6 
i 
8 


16 # Crawl responsibly by identifying yourself (and your website) on the 


User-Agent 
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17 #USER_AGENT = 'getProxy (+http://www. yourdomain.com) ' 

18 

19 

20 ### user add 

21 USER AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 
(KHTML, like Gecko)" 

22 ITEM PIPELINES - ( 

23 'getProxy.pipelines.GetproxyPipeline':100 

24 } 


只 需要 在 settings.py 里 添加 一 个 USER. AGENT 项 就 可 以 了 。 如 果 可 以 ， 尽 可 能 使 用 本 
机 浏览 器 的 headers。 这 里 使 用 的 是 随意 选取 的 一 个 headers， 好 在 该 网 站 没有 根据 不 同 的 
headers 返回 不 同 的 内 容 。 

好 了 ， 再 回 到 getProxy 项 目的 目录 下 ， 使 用 scrapy shell 测试 如 何 获取 有 效 数 据 。 执 行 命 


加 


4s 
scrapy shell http://www.xicidaili.com/nn/2 


得 到 的 结果 如 图 5-45 所 示 。 


[tMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats 


20:52:16+0800 [scrapy] INFO: Enabled item pipelines: GetproxyPipeline 
20:52:16+0800 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 


[scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
[xiciSpider] INFO: Spider opened 
: [xiciSpider] DEBUG: Crawled (200) «GET http://www.xicid 
aili.com/nn/2» (referer: None) 
[s] Available Scrapy objects: 
crawler  <scrapy.crawler.Crawler object at 0x7f212465a910» 
item [n 


hs) response 200 http://www. xicidaili com/nn/2» | 
settings  «scrapy.settings.Settings object at 0x7£2125053750> 
[s] spider 4XicispiderSpider 'xiciSpider' at 0x7£21237£4190> 
[s] Useful shortcuts: 
shelp() Shell help (print this help) 
fetch(req or url) Fetch request (or URL) and update local objects 
view(response) View response in a browser 


图 5-45 修改 headers 后 scrapy shell 


如 图 5-45 所 示 ，response 的 返回 码 为 200， 现 在 没 问 题 了 。 浏 览 器 中 打开 
http://www.xicidaili.com/nn/2， 空 白 处 右 击 ， 选 择 “ 查 看 网 页 源 代码 ”， 打 开 了 页 面 的 源 代码 
网 页 ， 发 现 所 需 数据 的 块 都 是 以 <tr class="odd"> 或 者 <tr class=""> 开 头 的 。 在 scrapy shell 中 执 
行 命令 : 

subSelector = response.xpath('//tr[@class=""] |//tr[@class="odd"]') 

subSelector[0].xpath('.//td[2]/text () ') . extract () [0] 


subSelector[0].xpath('.//td[3]/text() ') .extract () [0] 
subSelector[0].xpath('.//td[4]//text () ') .extract () [0] 
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subSelector[0].xpath('.//td[5]/text()').extract() [0] 
subSelector[0].xpath('.//td[6]/text() ') .extract () [0] 


执行 结果 如 图 5-46 所 示 。 


subSelector = response.xpath('//tr[@class=""] |//tr[@class="odd")') 


: subSelector[0].xpath('.//td[2]/text () ') .excract () [0] 
: u'111.155.124.70' 


: subSelector[0].xpath('.//td[3]/text () ') .excract () [0] 
: u'8123' 


: subSelector[0].xpath('.//td[4]/a/text () ') -extract () [0] 
: u'\uS317\udeac! 


: subSelector[0].xpath('.//td[5]/text () ') .excract () [0] 
: u'\u9ad8\u533f' 


: subSelector[0].xpath('.//td[6]/text () *) .excract () [0] 
: u'HITP' 


5-46 xiciSpider 测试 选择 器 
现在 xiciSpiderpy 怎么 编写 已 经 一 目 了 然 了 。xiciSpiderpy 的 内 容 如 下 : 


= coding: Utf-8 =*= 
2 import scrapy 
3 from getProxy.items import GetproxyItem 


4 

5 

6 class XicispiderSpider (scrapy.Spider): 
7 name = "xiciSpider" 

8 allowed domains - ["xicidaili.com"] 
9 wds = ['nn','nt','wn','wt'] 


10 pages = 20 
wal start_urls = [] 
12 for type in wds: 


13 for i in xrange(l,pages + 1): 

14 start_urls.append ('http://www.xicidaili.com/'+type+'/'+str (i) 
15 

16 

a7: def parse (self, response): 

18 subSelector = response.xpath ('//tr[@class=""] |//tr[@class="odd"]') 
19 items = [] 

20 for sub in subSelector: 

21 item = GetproxyItem() 

22 item['ip'] = sub.xpath('.//td[2]/text()').extract() [0] 

23 item['port'] = sub.xpath('.//td[3]/text() ') .extract () [0] 
24 item['type'] = sub.xpath('.//td[5]/text() ') .extract() [0] 
25 if sub.xpath('.//td[4]/a/text () ') : 

26 item['loction'] = sub.xpath('//td[4]/a/text () ') extract () [0] 
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Za else: 


28 item['loction'] = sub.xpath('.//td[4]/text() ') .extract () [0] 
29 item['protocol'] = sub.xpath('.//td[6]/text() ') .extract () [0] 

30 item['source'] = 'xicidaili' 

31 items .append (item) 

32 return items 


E 


到 项 目 getProxy 目录 下 ， 执 行 命令 : 


scrapy crawl xiciSpider 
1s 
we -1 proxy.txt 


执行 结果 如 图 5-47 所 示 。 


[2016-07-31 22:04:42+0800 [xiciSpider] INFO: Dumping Scrapy stats: 

('downloader/request bytes': 36972, 

'downloader/request count': 80, 

'downloader/request method count/GET': 80, 

'downloader/response bytes': 649788, 

'downloader/response count': 80, 

'downloader/response status count/200': 80, 

'finish reason': 'finished', 

'finish time': datetime.datetime(2016, 7, 31, 14, 4, 42, 977442), 

'item scraped count': 8000, 

'log count/DEBUG': 8082, 

'log count/INFO': 8, 

'response received count': 80, 

'scheduler/dequeued': 80, 

'scheduler/dequeued/memory': 80, 

'scheduler/enqueued': 80, 

'scheduler/enqueued/memory': 80, 

'start time': datetime.datetime(2016, 7, 31, 14, 3, 20, 377657)) 
2016-07-31 22:04:42+0800 [xiciSpider] INFO: Spider closed (finished) 
king8debian:-/code/crawler/scrapyProject/getProxyS 1s 
getProxy scrapy.cfg proxy.txt 

amigo de/crawler/scrapyProject/getProxyS wc -l proxy.txt 


ieing@debian:~/code/crawler/scrapyProject/getProxys [| 


图 5-47 scrapy crawl xiciSpider 


[E = xicidailicom 同一 IP， 短 时 间 内 频繁 扑 取 ， 超 过 一 定 次 数 就 会 被 封锁 IPS 77 — ORBE 
C 了 ， 那 就 重启 路 由 器 或 者 光 猎 换个 人 P 吧 。 


从 文件 保存 的 记录 数字 来 看 ， 应 该 是 没 问题 的 。 但 这 么 多 的 记录 ， 或 者 说 这 么 多 的 代理 
服务 器 有 多 少 是 可 用 的 呢 ? 这 就 是 下 一 小 节 的 问题 了 。 


5.5.4 ”处 理 Spider 数据 


如 何 来 验证 上 一 小 节 中 已 经 获取 到 的 代理 服务 器 地 址 ， 最 简单 的 方法 当然 是 在 pipelines 
文件 里 直接 修改 。 但 不 幸 的 是 验证 一 个 代理 服务 器 是 否 有 效 所 需 的 时 间 和 将 一 行 记录 写 入 文 
件 的 时 间 相 差 得 太 远 了 。 前 者 所 需 的 时 间 是 以 秒 计算 的 ， 后 者 是 以 微 秒 计算 。 这 样 一 来 还 不 
如 先 将 所 有 的 代理 服务 器 保存 到 文件 ， 然 后 另外 写 一 个 Python 程序 来 验证 代理 。 

进入 getProxy 项 目的 目录 下 ， 创 建 Python 验证 程序 。 执 行 命令 : 
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cd 


cd code/scrapy 


cd getProxy 


vi connWebWithProxy.py 


代理 


© 0-100550 MP 


Q Q Q Q Q www M MV I.I I0 9, 9 0 D | | PPR PPR 
YN OQ & QN P OH Oo -o U^ Q MPO tio0-JoouswuwNMnmo 


服务 器 验证 程序 connWebWithProxy.py 的 内 容 如 下 : 


#!/usr/bin/env python3 
#=*= coding: utf-8 =*= 


. author = 'hstking hst_king@hotmail.com' 


import urllib.request 
import re 
import threading 


import codecs 


class TestProxy (object): 
def ^ init (self): 

self.sFile - 'proxy.txt' 
self.dFile - 'alive.txt' 
Self.URL = 'http://www.baidu.com/' 
self.threads = 10 
self.timeout = 3 
self.regex = re.compile('baidu.com') 
self.aliveList = [] 


self.run() 


def run(self): 
with codecs.open(self.sFile, 'r', 'utf-8') as fp: 
lines - fp.readlines() 
line - lines.pop() 
while lines: 


for i in range (self.threads): 


t = threading.Thread (target-self.linkWithProxy, args=(line,)) 


t.start() 
if lines: 

line - lines.pop() 
else: 


continue 


with codecs.open(self.dFile, 'w', 'utf-8') as fp: 
for i in range(len(self.aliveList)): 


38 fp.write(self.aliveList[i]) 


39 

40 

41 

42 def linkWithProxy(self, line): 

43 proxyStr = line.split('||') [0] 

44 proxyDic = eval(proxyStr) 

45 opener = urllib.request.build opener (urllib.request. 
ProxyHandler (proxyDic) 

46 urllib.request.install opener (opener) 

47 try: 

48 response = urllib.request.urlopen (self.URL, 
timeout-self.timeout) 

49 except: 

50 print('$s connect failed' $proxyDic) 

(aul return 

52 else: 

53 BEYS 

54 str = response.read().decode('utf-8') 

55 except: 

56 print('%s connect failed' $proxyDic) 

57 return 

58 if self.regex.search(str): 

59 print('$s connect success .......... ' $proxyDic) 

60 self.aliveList.append (line) 

执行 命令 : 


Python3 connWebWithProxy.py 


利用 多 线程 来 验证 来 源 文件 proxytxt 里 的 代理 。 经 过 验证 ， 有 181 个 代理 可 以 使 用 。 将 
selfthreads 设置 为 10， 使 用 10 个 进程 并 发 ， 大 概 需要 1 分 钟 左 右 ， 速 度 还 可 以 接受 。 这 个 
速度 已 经 很 快 了 ， 没 有 必要 将 selfthreads 设置 得 太 大 ， 以 免 占用 太 多 的 系统 资源 。 最 终 得 到 
文件 alive.txt。 这 个 程序 还 比较 简陋 ， 有 很 大 的 改进 空间 。 例 如 ， 同 一 网 站 下 息 取 的 代理 服务 
器 也 许 不 会 有 重复 的 情况 ， 但 多 个 网 站 疏 取 的 代理 服务 器 就 有 可 能 重复 。 这 种 情况 可 以 在 程 
序 内 加 上 一 个 去 重 的 函数 。 


Scrapy JERK : 粮 事 百科 


上 节 中 得 到 了 一 个 经 过 验证 的 proxy SCF. ATES CERI GAA, H 
标 站 点 就 定 为 一 个 笑话 网 站 粮 事 百科 。 
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5.6.1 目标 分 析 

粮 事 百科 这 个 站 点 类 似 于 上 节 的 “ 西 刺 代 理 ”。 它 必须 指定 一 个 浏览 器 的 headers 才能 
返回 正确 的 数据 。 另 外 上 节 中 的 getProxy 项 目 中 已 经 获取 了 一 些 可 使 用 的 代理 服务 器 ， 不 能 
浪费 掉 。 本 节 将 使 用 代理 来 人 取 粮 事 百科 中 的 笑话 。 

在 浏览 器 中 打开 粮 事 百科 网 站 ， 如 图 5-48 所 示 。 


Cf D www.qiushibaike.com/hot/page/3/?s-4900120 


Ces AJ wet BH XF SH Gm = 
TE B SE 


刚才 在 公园 看 到 了 节 孙 俩 ， 孙 子 走 在 节 节 前 面 ， 小 孩子 喝 完 手 里 的 饮料 直接 把 瓶子 碰 


图 5-48 ”数据 来 源 站 点 


从 图 5-48 中 可 以 看 出 目标 数据 来 源 的 网 址 为 http://www.qiushibaike.com/hot/page/3/?s= 
4900120， 这 里 的 ?s=4900120 应 该 只 是 从 Cookies 里 提取 的 用 户 标识 。 去 除 这 个 尾巴 ， 用 浏览 
器 打开 http://www.qiushibaike.com/hot/page/3/。 页 面 完 全 一 样 ， 没 有 任何 影响 。 

可 以 获取 的 项 有 发 布 者 名 字 、 笑 话 内 容 、 笑 话 图 片 (如果 有 图 片 就 下 载 ) 、 单 击 好 笑 的 
次 数 、 谈 论 的 次 数 。items.py 就 是 这 些 了 。 


5.6.2 ”创建 编辑 Scrapy 爬虫 


BEA Scrapy 的 工作 目录 ， 创 建 项 目 名 为 qiushi 的 Scrapy 项 目 ， 通 过 Spider 模版 创建 
qiushiSpiderpy 文件 。 执 行 命令 : 

cd 

cd code/scrapy 

scrapy startproject qiushi 

cd qiushi 


scrapy genspider qiushiSpider qiushibaike.com 


首先 要 编辑 的 还 是 items.py, items.py 文件 的 内 容 如 下 : 


1 #-*= coding: utf-8 -*- 
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# Define here the models for your scraped items 
# 
# See documentation in: 


# http://doc.scrapy.org/en/latest/topics/items.html 


import scrapy 


0 0 - 0 0 fF QNM 


10 

11 class Qiushiltem(scrapy.Item): 

12 # define the fields for your item here like: 
13 # name = scrapy.Field() 

14 author = scrapy.Field() 

15 content = scrapy.Field() 

16 img = scrapy.Field() 

aly) funNum = scrapy.Field() 

18 talkNum = scrapy.Field() 


不 管 后 面 怎么 变化 ， 需 要 添加 什么 功能 ， 在 items.py 这 个 文件 上 是 没有 任何 区 别 的 。 在 
上 节 的 getProxy 项 目 中 ， 为 了 获取 “ 西 刺 代理 ”站 点 上 的 代理 服务 器 ， 在 settings.py 中 添加 
了 USER AGENT 项 ， 给 Scrapy 添加 了 一 个 浏览 器 的 headers。 本 节 的 Scrapy 项 目 不 仅 需 要 
添加 浏览 器 的 headers， 还 要 使 用 proxy， 这 就 涉及 了 Scrapy 中 间 件 。 

Scrapy 项 目 本 身 有 很 多 的 中 间 件 。 这 些 中 间 件 设置 了 很 多 的 环境 。 一 般 最 常见 的 中 间 件 
就 是 下 载 器 中 间 件 。 本 节 项 目 所 需 添加 headers， 使 用 proxy 都 是 在 这 个 中 间 件 中 修改 。 


5.6.3 Scrapy 项 目 中 间 件 一 一 添加 headers 


在 Scrapy 项 目 中 ， 掌 管 proxy 的 中 间 件 是 scrapy.contrib.downloadermiddleware.useragent. 
UserAgentMiddleware。 直 接 修改 这 个 中 间 件 ， 不 是 不 可 以 ， 不 过 为 了 一 个 项 目 就 去 修改 整个 
环境 变量 ， 也 太 小 题 大 做 了 。 我 们 完全 可 以 自己 写 个 中 间 件 ， 让 它 运行 ， 然 后 将 Scrapy 默认 
的 中 间 件 关闭 掉 就 可 以 了 。 

先进 入 qiushi 项 目下 的 settgings.py 同 层 目 录 ， 创 建文 件 夹 middlewares， 在 middlewares 
目录 下 创建 _init_.py 和 customMiddlewares.py 文件 ， 其 中 _init_.py 的 作用 是 将 整个 
middlewares 目录 当成 一 个 模块 使 用 。customMiddlewares.py 就 是 自 定义 的 中 间 件 。 
customMiddlewares.py 的 内 容 如 下 : 

1 #!/usr/bin/env python 

2 #-*= coding: utf-8 -*- 

3 author = 'hstking hst_king@hotmail.com' 
4 
5 
6 


from scrapy.contrib.downloadermiddleware.useragent import 
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UserAgentMiddlewar e 


7 
8 class CustomUserAgent (UserAgentMiddleware) : 
9 def process request (self, request, spider) : 
10 ua = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like 
Ge cko) Chrome/19.0.1061.1 Safari/536.3" 
11 request.headers.setdefault('User-Agent', ua) 


修改 settings.py， 将 系统 默认 的 中 间 件 serapy.contrib.downloadermiddleware.useragent. 
UserAgentMiddleware 关闭 ， 用 自己 创建 的 中 间 件 qiushi.middlewares.customMiddlewares. 
CustomUserA gent 代替 。Settings.py 内 容 如 下 : 


$ -= coding: utf=0 =*= 
Scrapy settings for qiushi project 


For simplicity, this file contains only the most important settings by 


http://doc.scrapy.org/en/latest/topics/settings.html 
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# 
+ 
# 
# default. All the other settings are documented here: 
+ 
* 
+ 


H He 
"o 


BOT NAME = 'qiushi' 


|o 
wn 


SPIDER_MODULES = ['qiushi.spiders'] 
NEWSPIDER MODULE = 'qiushi.spiders' 


m 
心 


15 

16 # Crawl responsibly by identifying yourself (and your website) on the 
User-Agent 

17 #USER_AGENT = 'qiushi (+http://www.yourdomain.com) ' 

18 

19 

20 

21 ### user define 

22 DOWNLOADER_MIDDLEWARES = { 


23 'qiushi.middlewares.customMiddlewares.CustomUserAgent': 3, 
24 'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None, 
Zi 


因为 改 用 了 自 定义 的 中 间 件 取代 Scrapy 的 中 间 件 ， 所 以 需要 将 Scrapy 的 中 间 件 改 为 
None， 将 其 关闭 。 
编辑 pipelines.py 文件 ，pipelines.py 文件 内 容 如 下 : 


1 #-*- coding: utf-8 -*- 
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# Define your item pipelines here 

# 

# Don't forget to add your pipeline to the ITEM PIPELINES setting 
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html 


import time 
import urllib.request 
import os 
import codecs 
class QiushiPipeline (object): 
def process item(self, item, spider): 
today = time.strftime('$Y$m$d', time.localtime()) 
fileName = today + 'qiubai.txt' 
imgDir = 'IMG' 
if os.path.isdir(imgDir): 
pass 
else: 
os.mkdir (imgDir) 
with codecs.open (fileName, 'a', "utf-8') as fp: 
fp.write('-'*50 + "Nn + "850! + Nay 
fp.write("author:\t %s\n" %(item['author'])) 
fp.write("content:\t %s\n" $(item['content'])) 
try: 
imgUrl = item['img'][1] 
except IndexError: 
pass 
else: 
imgName - os.path.basename (imgUrl) 
fp.write("img:\t %s\n" $(imgName)) 
imgPathName = imgDir + os.sep + imgName 
with open(imgPathName, 'wb') as fp: 
response = urllib.request.urlopen (imgUrl) 
fp.write (response.read()) 
fp.write("fun:%s\t talk:%s\n" $(item['funNum'],item['talkNum'])) 
fp.write('*'*50 + '\n' + '-'*50 + 'An'*10) 


return item 


最 后 将 QiushiPipeline 添加 到 settings.py 中 去 ， 修 改 后 的 settings.py 内 容 如 下 : 


a 
2 
3 
4 
5 


# -*- coding: utf-8 -*- 


# Scrapy settings for qiushi project 
+ 
# For simplicity, this file contains only the most important settings by 


# default. All the other settings are documented here: 

+ 

+ http://doc.scrapy.org/en/latest/topics/settings.html 
+ 

11 BOT_NAME = 'qiushi' 


13 SPIDER_MODULES = ['qiushi.spiders'] 
14 NEWSPIDER_MODULE = 'qiushi.spiders' 


16 # Crawl responsibly by identifying yourself (and your website) on the User-Agent 
17 #USER_AGENT = 'qiushi (*http://www.yourdomain.com)" 


21 ### user define 
22 DOWNLOADER MIDDLEWARES = { 


23 'qiushi.middlewares.customMiddlewares.CustomUserAgent': 3, 

24 'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None, 
251p 

26 


27 ITEM PIPELINES - ( 
28 'qiushi.pipelines.QiushiPipeline':10, 
29 } 


所 有 文件 准备 完毕 了 ， 回 到 qiushi 项 目下 ， 执 行 命令 : 


scrapy crawl qiushiSpider 
ls 


结果 如 图 5-49 所 示 。 


('downloader/request bytes': 30250, 
'downloader/request count': 65, 
'downloader/request method count/GET': 

'downloader/response bytes': 342865, 
'downloader/response count': 65, 
'downloader/response status count/20 
'downloader/response status count/30 
'downloader/response status count/SO. 

'finish reason': 'finished', 

‘finish time': datetime.datetime(2016, 8, 6, 20, 316252), 
‘item scraped count': 363, 

'log count/DEBUG': 446, 

"log count/ERROR': 77, 

'log count/INFO': 7, 

"response received count': 30, 

'scheduler/dequeued': 65, 

'scheduler/dequeued/memory': 65, 

'scheduler/enqueued': 65, 

'scheduler/enqueued/memory': 65, 

'start time': datetime.datetime(2016, 8, 1, 9, 5, 59, 392965)) 

[2016-08-01 17:06:20+0800 [qiushiSpider] INFO: Spider closed (finished) 

x/scrapyProject/qiushi$ is 
scrapy.cfg 


图 5-49 数据 保存 结果 
从 最 后 运行 结果 看 来 ， 已 达到 预期 目标 ， 获 取 了 数据 。 自 定义 的 中 间 件 成 功 运行 。 


199 


5.6.4 Scrapy 项 目 中 间 件 一 一 添加 proxy 


上 一 小 节 中 使 用 自 定 义 的 中 间 件 给 Scrapy 添加 了 浏览 器 的 headers。 本 小 节 将 使 用 自 定 
义 的 中 间 件 给 Scrapy 添加 一 个 proxy。 

Scrapy 默认 环境 下 ，proxy 的 设置 是 由 中 间 件 scrapy.contrib.downloadermiddleware. 
httpproxy.HttpProxyMiddleware 控制 的 。 参 照 上 一 小 节 的 方法 ， 还 是 自 定义 一 个 中 间 件 。 因 为 
只 使 用 单独 一 个 代理 ， 就 不 再 添加 新 的 文件 了 。 直 接 在 middlewares.customMiddlewares 中 添 
加 一 个 类 就 可 以 了 。 

既然 是 使 用 proxy， 那 得 先 找到 一 个 可 使 用 proxy， 在 上 个 Scrapy 项 目 getProxy 中 已 经 
找到 很 多 了 ， 我 们 在 getProxy 项 目的 最 终 文档 alive.txt 中 随意 挑选 一 个 即 可 。 例 如 : 
114.33.202.73:8118. 


这 个 代理 是 个 临时 的 代理 ， 现 在 有 效 不 代表 将 来 一 直 都 有 效 ， 测 试 时 请 换 一 个 确实 可 用 | 
| i 的 代理 服务 器 。 


修改 自 定义 的 中 间 件 文档 customMiddlewares.py。 修 改 完毕 后 的 customMiddlewares.py 内 

容 如 下 : 

1 #!/usr/bin/env python 

coding: utf=8 =*= 

3 author = 'hstking hst_king@hotmail.com' 

4 

5 

6 from scrapy.contrib.downloadermiddleware.useragent import 
UserAgentMiddlewar e 

7 

8 class CustomUserAgent (UserAgentMiddleware) : 


9 def process_request (self, request, spider) : 

10 ua = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like 
Ge cko) Chrome/19.0.1061.1 Safari/536.3" 

11 request .headers.setdefault ('User-Agent', ua) 

12 

13 class CustomProxy (object): 

14 def process request (self,request,spider): 

15 request.meta['proxy'] = 'http://114.33.202.73:8118' 


接 下 来 再 修改 settingspy 文件 ， 将 新 添加 的 中 间 件 CustomProxy 添加 到 
DOWNLOADER_MIDDLEWARES 中 去 。 这 里 与 之 前 的 CustomUserAgent 不 同 的 是 ， 
CustomUserAgent 需要 禁止 系统 的 UserAgentMiddleware， 而 CustomProxy 则 需要 在 系统 的 
HttpProxyMiddleware 之 前 执行 。 修 改 完毕 的 settings.py 内 容 如 下 : 


1 4 -*- coding: utf-8 -*- 
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# Scrapy settings for qiushi project 

+ 

# For simplicity, this file contains only the most important settings by 
# default. All the other settings are documented here: 

# 

# http://doc.scrapy.org/en/latest/topics/settings.html 


ow 0 - O0 4 fF 0 NM 
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BOT_NAME = 'qiushi' 


BPR 
wn 


SPIDER_MODULES = ['qiushi.spiders'] 
NEWSPIDER_MODULE = 'qiushi.spiders' 


BRR 
as 


16 # Crawl responsibly by identifying yourself (and your website) on the 


User-Agent 


17 #USER_AGENT = 'qiushi (+http://www. yourdomain.com) ' 
18 

19 

20 

21 ### user define 

22 DOWNLOADER_MIDDLEWARES = { 


23 'qiushi.middlewares.customMiddlewares.CustomProxy': 10, 

24 'qiushi.middlewares.customMiddlewares.CustomUserAgent': 30, 

25 'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': 
None, 

26 'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 
20 

za 

28 


29 ITEM PIPELINES = { 
30 'qiushi.pipelines.QiushiPipeline':10, 
au F 


最 后 回 到 Scrapy 项 目 qiushi 的 目录 下 ， 执 行 命令 : 


Scrapy crawl qiushiSpider 


执行 的 结果 如 图 5-50 所 示 。 


a 
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king8debian:-/code/crawler/scrapyProject/qiushi$ scrapy crawl qiushiSpider 
[2016-08-01 22:57:01+0800 [scrapy] INFO: Scrapy 0.24.2 started (bot: qiushi) 
[2016-08-01 22:57:01+0800 [scrapy] INFO: Optional features available: ssl, httpli 

, boto, django 

[2016-08-01 22:57:01«0800 [scrapy] INFO: Overridden settings: ('NEWSPIDER MODULE' 

: 'qiushi.spiders', 'SPIDER MODULES': ['qiushi.spiders'], 'BOT NAME': 'qiushi') 
2016-08-01 22:57:01+0800 [scrapy] INFO: Enabled extensions: LogStats, TelnetCons 
ole, CloseSpider, WebService, CoreStats, SpiderState 

2016-08-01 22:57:02+0800 [scrapy] INFO: Enabled downloader middlewares: CustomPr z] 
oxy, CustomUserAgent, HttpAuthMiddleware, DownloadTimeoutMiddleware, RetfyMiddle 
ware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware 
, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderSt. 
laus 

[2016-08-01 22:57:02+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMid| 
|dleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddlew 
are 

2016-08-01 22:57:02+0800 [scrapy] INFO: Enabled item pipelines: QiushiPipeline 
2016-08-01 22:57:02+0800 [qiushiSpider] INFO: Spider opened 

2016-08-01 22:57:02+0800 [qiushiSpider] INFO: Crawled 0 pages (at 0 pages/min), 
scraped 0 items (at 0 items/min) 

2016-08-01 22:57:02+0800 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 
023 

2016-08-01 22:57:02+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
^C2016-08-01 22:57:04+0800 [scrapy] INFO: Received SIGINT, shutting down gracefu ~ 


图 5-50 运行 中 间 件 
从 图 5-50 中 可 以 看 出 自 定义 的 两 个 中 间 件 都 已 经 运行 了 。 


5.7 Scrapy MEZRA : 把 虫 攻防 


对 于 一 般 用 户 而 言 ， 网 络 息 虫 是 个 好 工具 ， 它 可 以 方便 地 从 网 站 上 获取 自己 想 要 的 信 
息 。 可 对 于 网 站 而 言 ， 网 络 爬 虫 占用 了 太 多 的 资源 ， 也 没 可 能 从 这 些 爬 虫 获取 点 击 量 ， 增 加 
广告 收入 。 据 有 关 调 查 研究 证 明 ， 网 络 上 超过 60% 以 上 的 访问 量 都 是 息 虫 造成 的 ， 也 难怪 网 
站 方 对 网 络 息 虫 恨 之 入 骨 ，“ 杀 ”之 而 后 快 了 。 

网 站 方 采取 种 种 措施 拒绝 网 络 息 虫 的 访问 ， 而 网 络 高 手 们 则 毫 不 示弱 ， 改 进 网 络 息 虫 ， 
赋予 它 更 强 的 功能 、 更 快 的 速度 ， 以 及 更 隐蔽 的 手段 。 在 这 场 息 虫 与 反 息 虫 的 战争 中 ， 双 方 
的 比分 交 蔡 领先 ， 最 终 谁 会 赢得 胜利 ， 大 家 将 拭目以待 。 


5.7.1 创建 一 般 礁 虫 

我 们 先 写 一 个 小 怜 虫 程序 ， 假 设 网 站 方 的 各 种 限制 ， 然 后 再 来 看 看 如 何 破解 网 站 方 的 限 
制 ， 让 大 家 自由 地 使 用 息 忠 工具 。 网 站 限制 的 息 虫 肯定 不 包括 我 们 这 种 只 有 几 次 访问 的 候 
虫 。 一 般 来 说 ， 小 于 100 次 访问 的 聆 虫 都 无 须 为 此 担心 ， 这 个 的 爬虫 纯粹 是 做 演示 。 

DAME HR SE RK AW AA i), EH Scrapy 疏 虫 来 朴 取 最 近 更 新 的 美剧 ， 来 源 网 页 是 
http://www.meijutt.com/new100.html。 进 入 Scrapy 工作 目录 ， 创 建 meiju100 项 目 。 执 行 命令 : 

cd 

cd code/scrapy 


scrapy startproject meiju100 
cd meijul100 
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scrapy genspider meijul00Spider meijutt.com 
tree meijul00 


执行 的 结果 如 图 5-51 所 示 。 


8) king@debian8: ~/code/scrapy/meiju100 = n x 


kingédebian8:-/code/scrapy/meijul00$ tree meiju 
Imei jul00/ 

ļ _ init__.py 
[— items.py 

|— niddiewares.py 
L 


pipelines.py 


settings.py 
spiders 


1 directory, 7 files 
king@debian8:~/code/scrapy/meijul00s 目 


5-51 tree meijul00 Ji H 
修改 后 的 items.py 的 内 容 如 下 : 
1 $ =t coding: wubf=9 =*= 
# Define here the models for your scraped items 
* 


# See documentation in: 


# http://doc.scrapy.org/en/latest/topics/items.html 


import scrapy 


© 0 - nH SF QNM 


PR 
|o 


class Meijul00Item(scrapy.Item) : 


m 
N 


# define the fields for your item here like: 


m 
w 


# name = scrapy.Field() 


m 
心 


storyName = scrapy.Field() 


m 
a 


storyState = scrapy.Field() 
16 tvStation = scrapy.Field() 
17 updateTime = scrapy.Field() 


修改 后 的 meijul00Spiderpy 内 容 如 下 : 


# -*- coding: utf-8 -*- 
import scrapy 
from meijul00.items import Meijul00Item 


class Meijul00spiderSpider (scrapy.Spider) : 
name = 'meijul00Spider' 


co 20050 NM PP 


allowed domains - ['meijutt.com'] 
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9 start urls = ['http://meijutt.com/new100.html'] 


10 

ant def parse(self, response): 

12 subSelector = response.xpath('//1i/div[@class="lasted-num fn- 
left"]") 

13 items = [] 

14 for sub in subSelector: 

15 item = Meijul00Item() 

16 item['storyName'] = sub.xpath('../h5/a/text()').extract() [0] 

aly) try: 

18 item['storyState'] = sub.xpath('../span[@class="statel 
newl100state1"]/font/text()') .extract () [0] 

19 except IndexError as e: 

20 item['storyState'] = sub.xpath('../span[@class="statel 
newl00state1"]/text ()') .extract () [0] 

21 item['tvStation'] = 
sub.xpath('../span[@class="mjtv"]/text()') .extract () 

22 try: 

E item['updateTime'] = sub.xpath('../div[@class="lasted- 
time newl00time fn-right"]/font/text()').extract() [0] 

24 except IndexError as e: 

25 item['updateTime'] = sub.xpath('../div[@class="lasted- 
time newl00time fn-right"]/text()').extract() [0] 

26 items .append (item) 

27 return items 


修改 后 的 pipelines.py 内 容 如 下 : 


-*- coding: utf-8 -*- 


* 


Define your item pipelines here 


Don't forget to add your pipeline to the ITEM_PIPELINES setting 
See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html 


import time 


(0 0 - 0 4 BFwWN eH 
LE 香 


10 class Meijul00Pipeline (object): 

11 def process item(self, item, spider): 

12 today = time.strftime('$Y$m$d', time.localtime()) 

13 fileName = today + 'meiju.txt' 

14 with open(fileName, 'a') as fp: 

15 fp.write("$s Nt" $(item['storyName'].encode('utf8'))) 
16 fp.write("$s Nt" $(item['storyState'].encode('utf8'))) 
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abr] if len(item['tvStation']) == 0: 


18 fp.write("unknow \t") 

19 else: 

20 fp.write("%s Nt" %(item['tvStation'] [0]) .encode('utf8"')) 
21 

22 return item 


修改 后 的 settings.py 内 容 如 下 : 


1 # =*= coding: utf-8 -=*= 


2 
3 # Scrapy settings for meijul00 project 
4 
5 


sete 


For simplicity, this file contains only the most important settings 
by 
default. All the other settings are documented here: 


http: //doc.scrapy.org/en/latest/topics/settings.html 


11 BOT NAME = 'meijul00' 


13 SPIDER MODULES = ['meijul00.spiders'] 

14 NEWSPIDER MODULE = 'meijul00.spiders' 

15 

16 # Crawl responsibly by identifying yourself (and your website) on the 
User-Agent 

17 #USER AGENT = 'meijul00 (*http://www.yourdomain.com)"' 

18 

19 

20 ### user define 

21 ITEM_PIPELINES = { 

22 'meijul00.pipelines.Meijul00Pipeline':10 

29 


ix 4 3 IE OA PER T, 


scrapy crawl meijul00Spider 
cat *.txt 


执行 结果 如 图 5-52 所 示 。 


E 


到 meiju 项 目的 主 目录 下 ， 执 行 命令 : 
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n 
^ 
1, 31, 7, 21, 19, 307477)) 
gine] INFO: Spider closed (finished! 
s 
in at 20180131meiju.txt 
法 律 2018-1-31 
iP 
AR PN Hh JE F 
迷信 第 一 季 
疯狂 前 女友 第 三 季 
RGB *% 
富家 穷 路 第 三 季 
如 此 一 家 人 第 五 季 
初来乍到 第 四 季 
内 电 侠 第 四 季 
sS uy mne 
HRD ERB EH. 2018-1-31 
沉默 的 天 使 第 一 季 第 2 集 T 2018-1-31 
BRAK AM Oe 第 11 集 Netflix 2018-1-31 
退休 警察 烦 事 多 第 二 季 Mish cas 2018-1-31 
天 蝎 第 四 季 第 15 集 ces 2018. 1 v 


5-52 meiju 项 目 结果 
THU IAT TY oF TAT aK JS MG He A SZ SITS AR 


5.7.2 ”封锁 间隔 时 间 破 解 

Scrapy 在 两 次 请 求 之 间 的 时 间 设 置 是 DOWNLOAD_DELAY。 如 果 不 考 虑 反扑 虫 的 因 
素 ， 这 个 值 当然 是 越 小 越 好 。 如 果 把 DOWNLOAD DELAY 设置 成 了 0.1， 也 就 是 每 0.1 秒 
向 网 站 请 求 一 次 网 页 。 网 站 管理 员 只 要 不 睹 ， 稍 微 过 滤 一 下 日 志 ， 必 定 会 为 仆 虫 使 用 者 如 此 
侮辱 他 的 智商 而 愤恨 不 已 。 

如 果 对 扑 虫 的 结果 需求 不 是 那么 急 ， 也 希望 “ 打 枪 的 不 要 ， 悄 悄 地 进 村 ”， 那 还 是 把 这 
一 项 的 值 设置 得 稍微 大 一 点 吧 。 在 settings.py 中 找到 这 一 行 ， 取消 前 面 的 注释 符号 ， 并 将 至 
修改 一 下 (在 settings.py 的 第 30 行 )。 

DOWNLOAD DELAY = 5 

这 样 每 5 PIKMIN GEIR T o RAPIER AEA, AMID 
这 个 频率 的 请 求 是 很 难 被 发 现 的 。 


5.7.3 ”封锁 Cookies 破解 

众所周知 ， 网 站 是 通过 Cookies 来 确定 用 户 身 份 的 。Scrapy ME dide eds EE E RH [8] — 
个 Cookies 发 送 请 求 。 这 种 做 法 和 把 DOWNLOAD_DELAY 设置 成 0.1 没什么 区 别 。 

不 过 要 破解 这 种 原理 的 反扑 虫 也 很 简单 ， 直 接 禁 用 Cookies 就 可 以 了 。 在 settings.py X 
件 中 找到 这 一 行 ， 取 消 前 面 的 注释 (在 settings.py 的 第 36 行 ) 。 


COOKIES ENABLED = False 
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5.7.4 封锁 User-Agent 破解 

User-Agent 是 浏览 器 的 身份 标识 。 网 站 就 是 通过 User-Agent 来 确定 浏览 器 类 型 的 。 有 很 
多 的 网 站 都 会 拒绝 不 符合 一 定 标准 的 User-Agent 请 求 网 页 。 在 前 面 的 Scrapy 项 目 中 曾 冒 充 浏 
览 器 访问 网 站 。 但 如 果 网 站 将 频繁 访问 网 站 的 User-Agent 作为 候 虫 的 标志 ， 然 后 将 其 拉 入 黑 
名 单 又 该 怎么 办 呢 ? 

这 个 也 很 简单 。 可 以 准备 一 大 堆 的 User-Agent， 然 后 随机 挑选 一 个 使 用 ， 使 用 一 次 就 更 
换 ， 这 样 不 就 解决 了 。 挑 选 几 个 合适 的 浏览 器 User-Agent 放 到 资源 文件 resource.py 中 待 用 。 
然后 将 resource.py 复制 到 settings.py 的 同 级 目录 中 去 ， 如 图 5-53 所 示 。 


2 


kingédebianB:-/code/scrapy/meiju100/me 

| init .py middlewares.py resource.py spiders 
pipelines.py settings.py 
:~/code/scrapy/meijul00/meiju100$ tree 


-PY 


5-53 ”资源 文件 resource.py 


resource.py 文件 内 容 如 下 : 


1 #!/usr/bin/env python3 

2 ł-*- coding: utf-8 -*- 

3 author  - 'hstking hst_king@hotmail.com' 

4 

5 UserAgents - [ 

6  "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; 
AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", 

7  "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; 
SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)", 

8  "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows 
NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", 

9  "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)", 

10  "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; 
Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media 
Center PC 6.0)", 

11 "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; 
Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 
3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)", 

12  "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 
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1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)", 

13  "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 
(KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)", 

14 "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like 
Gecko, Safari/419.3) Arora/0.6", 

15 "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) 
Gecko/20070215 K-Ninja/2.1.1", 

16  "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9 
Gecko/20080705 Firefox/3.0 Kapiko/3.0", 

17  "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5", 

18 "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko 
Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6", 

19  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like 
Gecko) Chrome/17.0.963.56 Safari/535.11", 

20  "Mozilla/5.0 (Macintosh; Intel Mac OS X 10 7 3) AppleWebKit/535.20 
(KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20", 

21  "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 
Version/11.52", 

EJ 


Scrapy 在 创建 项 目 时 已 经 创建 好 了 一 个 middlewares.py 文件 。 这 个 在 刚才 运行 scrapy 
crawl meiju100Spider 时 ，middlewares.py 并 没有 起 作用 。 现 在 需要 修改 User-Agent， 可 以 直 
接 在 middlewares.py 中 新 建 一 个 新 类 (重新 建立 一 个 新 文件 也 可 以 , 但 UserAgentMiddleware 
本 身 就 属于 middlewares 的 ， 放 到 一 起 更 加 方便 而 已 ) 。 这 个 新 类 继承 与 
UserAgentMiddleware 类 。 然 后 在 settings.py 中 设置 一 下 ， 让 这 个 新 类 替代 掉 原来 的 
UserAgentMiddlerware 类 。 修 改 middlewares.py 如 下 : 

1 # -*- coding: utf-8 -*- 


Define here the models for your spider middleware 


See documentation in: 


https://doc.scrapy.org/en/latest/topics/spider-middleware.html 


from scrapy import signals 


(0 0 -) FH QN 


from meijul00.resource import UserAgents 


m 
o 


from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware 


11 import random 

12 

13 

14 class Meijul00SpiderMiddleware (object): 

15 # Not all methods need to be defined. If a method is not defined, 
16 # scrapy acts as if the spider middleware does not modify the 

33 # passed objects. 
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18 
19 
20 
21 
22 
23 


@classmethod 

def from_crawler(cls, crawler): 
# This method is used by Scrapy to create your spiders. 
s = cls() 


crawler.signals.connect(s.spider opened, 


signal=signals.spider opened) 


24 
25 
26 
27 
28 
29 
30 
p 
32 
33 
34 
35 
36 
37 
38 
sc 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 


return s 


def process_spider_input (self, response, spider): 
# Called for each response that goes through the spider 


# middleware and into the spider. 


# Should return None or raise an exception. 


return None 


def process_spider_output (self, response, result, spider): 
# Called with the results returned from the Spider, after 
# it has processed the response. 


# Must return an iterable of Request, dict or Item objects. 
for i in result: 


yield i 


def process_spider_exception (self, response, exception, spider): 
# Called when a spider or process_spider_input() method 
# (from other spider middleware) raises an exception. 


# Should return either None or an iterable of Response, dict 
# or Item objects. 
pass 


def process start requests(self, start requests, spider): 
* Called with the start requests of the spider, and works 
# similarly to the process spider output() method, except 
* that it doesn't have a response associated. 


# Must return only requests (not items). 
for r in start requests: 


yield r 


def spider opened(self, spider): 
spider.logger.info('Spider opened: $s' $ spider.name) 
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60 


61 

62 class Meijul00DownloaderMiddleware (object) : 

63 # Not all methods need to be defined. If a method is not defined, 
64 # scrapy acts as if the downloader middleware does not modify the 
65 # passed objects. 

66 

67 @classmethod 

68 def from_crawler(cls, crawler): 

69 # This method is used by Scrapy to create your spiders. 

70 S = cls() 

71 crawler.signals.connect(s.spider opened, 


signal-signals.spider opened) 


72 return s 

T3 

74 def process_request (self, request, spider): 

75 # Called for each request that goes through the downloader 
76 # middleware. 

77 

78 # Must either: 

79 # - return None: continue processing this request 

80 # - or return a Response object 

81 # - or return a Request object 

82 # - or raise IgnoreRequest: process exception() methods of 
83 * installed downloader middleware will be called 

84 return None 

85 

86 def process response(self, request, response, spider): 

87 # Called with the response returned from the downloader. 
88 

89 # Must either; 

90 * - return a Response object 

91 * - return a Request object 

92 # - or raise IgnoreRequest 

93 return response 

94 

95 def process exception(self, request, exception, spider): 

96 # Called when a download handler or a process request () 

97 # (from other downloader middleware) raises an exception. 
98 

39 # Must either: 

100 * - return None: continue processing this exception 

101 * - return a Response object: stops process exception() chain 
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102 # - return a Request object: stops process exception() chain 


103 pass 

104 

105 def spider opened(self, spider): 

106 spider.logger.info('Spider opened: $s' $ spider.name) 
107 


108 class CustomUserAgentMiddleware (UserAgentMiddleware): 
109 def — init (self, user agent-'Scrapy'): 

110 ua = random.choice (UserAgents) 

111 self.user agent - ua 


在 这 个 文件 中 ， 只 有 第 9-11 行 和 108-111 行 是 后 来 添加 的 ， 中 间 的 部 分 是 系统 默认 生成 
的 。 实 际 上 中 间 的 部 分 暂时 并 没有 用 上 。 

新 类 CustomUserAgentMiddleware 已 经 创建 好 了 。 现 在 到 settings.py 中 修改 一 下 ， 用 
CustomUserAgentMiddleware 来 f 代 UserAgentMiddleware o 在 settings.py 中 找到 
DOWNLOADER_MIDDLEWARES 这 个 选项 ， 如 图 5-54 所 示 。 


Fm 


"Accept-Language': 'en', ^ 


Ý Enable or disable spider middlewares 
doc.scrapy.org/en/latest/topics/spider-middleware.html 
#SPIDER_MIDDLEWARES = ( 

# 'meijul00.middlewares.Meijul00SpiderMiddleware': 543, 

"n 


# Enable or disable extensions 
/ [doc.scrapy.org/en/latest/topics/extensions.html 


IONS = { 
scrapy.extensions.telnet.TelnetConsole': None, 


66,0-1 628 v 


5-54 ”修改 settings.py 


Fe 这 里 将 UserAgentMiddleware 默认 是 自动 运行 的 ， 现 在 目的 是 用 

CustomUserAgentMiddleware 来 蔡 代 它 ， 需 要 将 它 关 闭 掉 。 所 以 将 UserAgentMiddleware 

| 的 值 设置 成 None。CustomUserAgentMiddleware 设置 成 542， 这 个 数 是 启动 的 顺序 ， 并 
不 是 随便 设置 的 ， 是 依据 它 的 被 蔡 代 类 的 启动 顺序 来 设置 的 。 


保存 关闭 文件 ， 回 到 项 目下 执行 命令 : 


scrapy crawl meijul00Spider 


结果 是 没 问题 的 ， 现 在 来 看 看 Spider 的 日 志 ， 如 图 5-55 Bros. 
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8B kingGdebian&: ~/code/scrapy/meiju100 一 口 x 
'scrapy.extensions.logstats.LogStats'] ^ 

2018-01-31 20:41:28 [scrapy.middleware] INFO: Enabled downloader middlewares: 
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware', 
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware', 


tomUserAgentMiddleware’, 
jares.retry.RetryMiddlewa: 
* scrapy.downloadermiddlewares. redirect .MetaRefreshMiddleware', 
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware', 
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware', 
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware', 
'scrapy.downloadermiddlewares.stats.DownloaderStats'] 

2018-01-31 20:41:28 [scrapy.middleware] INFO: Enabled spider middlewares: 
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware', 
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware', 
'scrapy.spidermiddlewares.referer.RefererMiddleware', 
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware', 
'scrapy.spidermiddlewares.depth.DepthMiddleware'] 

2018-01-31 20:41:28 [scrapy.middleware] INFO: Enabled item pipelines: 
['neijul00.pipelines.MeijulO0Pipeline'] 

2018-01-31 20:41:28 [scrapy.core.engine] INFO: Spider opened 

[2018-01-31 20:41:28 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pag 
les/min), scraped 0 items (at 0 items/min) { 


图 5-55 spider 中 间 件 CustomUserAgentMiddleware 


设置 的 中 间 件 CustomUserAgentMiddleware 已 经 起 作用 了 。 


5.7.5 封锁 IP 破解 


在 反扑 虫 中 ， 最 容易 被 发 觉 的 实际 上 是 IP。 同 一 IP 短 时 间 内 访问 同一 站 点 ， 如 果 数 目 
D, 管理 员 可 能 会 以 为 是 网 吧 或 者 大 型 的 局 域 网 在 访问 而 放 你 一 马 。 数 目 多 了 ， 那 肯定 是 扑 
虫 了 。 个 人 用 户 可 以 用 重启 猫 的 方法 换 IP〈( 这 种 方法 也 不 算 太 靠 谱 ， 不 可 能 封锁 一 次 就 重启 
一 次 猫 吧 〉) ， 专 线 用 户 总 不 能 让 ISP 给 换 专线 吧 ， 因 此 最 方便 的 方法 就 是 使 用 代理 了 。 

之 前 的 项 目 中 曾 使 用 过 代理 爬 取 网 站 ， 本 节 将 准备 一 个 代理 池 ， 从 中 随机 地 选取 一 个 代 
理 使 用 。 疏 取 一 次 ， 选 取 一 个 不 同 的 代理 。 进 入 之 前 创建 的 middlewares 目录 中 ， 在 资源 文 
fF resource.py 中 加 入 一 个 IP 池 ， 也 就 是 一 个 代理 服务 器 的 列表 。 在 前 面 的 项 目 中 已 经 获取 
很 多 免费 的 代理 服务 器 了 ， 请 随意 取 用 ， 不 用 客气 。 

修改 后 的 resource.py 的 内 容 如 下 : 

1 #!/usr/bin/env python 

2 $-*- coding: utf-8 -*- 

3 author = 'hstking hst_king@hotmail.com' 

4 

5 


UserAgents - [ 

6  "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; 
AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", 

7  "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; 
SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)", 

8  "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows 
NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", 

9  "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)", 

10  "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; 
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Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media 
Center PC 6.0)", 

11  "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; 
Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 
3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)", 

12 "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 
1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)", 

13  "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 
(KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)", 

14  "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like 
Gecko, Safari/419.3) Arora/0.6", 

15 "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) 
Gecko/20070215 K-Ninja/2.1.1", 

16 "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9 
Gecko/20080705 Firefox/3.0 Kapiko/3.0", 

17  "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5", 

18 "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko 
Fedora/1.9.0.8-1.fcl0 Kazehakase/0.5.6", 

19 "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like 
Gecko) Chrome/17.0.963.56 Safari/535.11", 

20  "Mozilla/5.0 (Macintosh; Intel Mac OS X 10 7 3) AppleWebKit/535.20 
(KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20", 

21  "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 
Version/11.52", 

e | 

23 

24 PROXIES = [ 

25) Thetpe//l Oe 73. 1: 47:8123*, 

26 'http://110.73.42.145:8123', 

27 http: //182:89.3795:8T123*7 

28 'http://39.1.40.234:8080', 

29 'http://39.1.37.165:8080" 

30 ] # 这 里 还 可 以 添加 更 多 的 代理 


| PROXIES 里 的 代理 是 从 网 络 上 抓 取 的 代理 ， 具 有 时 效 性 ， 使 用 时 请 自行 设置 可 用 的 | 
| 代理 。 


修改 中 间 件 文件 middlewares.py 中 Meiju100DownloaderMiddleware 类 的 process request 
函数 ， 如 图 5-56 所 示 。 
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|g king@debian8: ~/code/scrapy/meiju100 
Bpider.iogger.info('Spider opened: $s' è spider.name) 


Mei jul 00DownloaderMiddleware (object): 
Not all methods need to be defined. If a method is not defined, 
scrapy acts as if the downloader middleware does not modify the 
passed objects. 


assmethod 
def from crawler(cls, crawler): 
# This method is used by Scrapy to create your spiders. 
s-cisQ 
crawler.signals.connect(s.spider opened, signal-signals.spider opened) 
turn s 


process request(self, request, spider): 
¥ Called for each request that goes through the downloader 
4 middleware. 


4 Must either: 

# - return None: continue processing this request 
4 - or return a Response object 

4 - or return a Request object 

4$ - or raise IgnoreRequest: process exception() methods of 
# installed downloader middleware will be called 
#import pdb 
#pdb, set_trace() 
proxy = random.choice (PROXIES) 
request.meta['proxy'] = proxy 
(request.meta['proxy'] = 'http://192.168.1.99:1080' 


None 


ef process response(self, request, response, spider): 
4 Called with the response returned from the downloader. 


图 5-56 ”添加 代理 服务 


修改 settings.py 文件 ， 将 Meiju100DownloaderMiddleware 添加 到 启动 的 中 间 件 去 ， 
5-57 所 示 。 


® king@debian8: - /code/scrapy/meiju100/meiju100 - oa x 
1*4 ^ 


# Enable or disable downloader middlewares 

4 & See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html 
DOWNLOADER MIDDLEWARES = ( 

6 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, 

middlewares.CustomUserAgentMiddleware': 542, 

middlewares.Meijul00DownloaderMiddleware': $43, 


# Enable or disable extensions 
62 # See https://doc.scrapy.org/en/latest/topics/extensions.html 
63 MEXTENSIONS = | 
644 'scrapy.extensions.telnet.TelnetConsole 
50) 


None, 


67 # Configure item pipelines 
48 # See https://doc.scrapy.org/en/latest/topics/item-pipeline.html 
69 ITEM PIPELINES = { 
*meijul00.pipelines.Meijul00Pipeline': 300, 
1) 


# Enable and configure the AutoThrottle extension (disabled by default) El 
58,1 72$ v 


图 5-57 启动 中 间 件 Meijul 00DownloaderMiddleware 


保存 文件 ， 回 到 项 目下 执行 命令 : 


scrapy crawl meijul00Spider 


查看 Scrapy 的 日 志 ， 如 图 5-58 所 示 。 


214 


B king debian: ~/code/scrapy/meijut 


'scrapy.extensions.logstats.LogStats'] 
[2018-01-31 21:08:32 [scrapy.middleware] INFO: Enabled downloader middlewares: 
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware', 
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware', 
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware', 
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware', 
'neijul00.middlewares.CustomUserAgentMiddleware', 
'meijul00.middlewares.Meijul00DownloaderMiddleware', 
"scrapy.downloadermiddlewares.retry.RetryMiddleware", 
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware', 
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware', 
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware', 
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware', 
'scrapy.downloadermiddlewares.stats.DownloaderStats'] 

2018-01-31 21:08:32 [scrapy.middleware] INFO: Enabled spider middlewares: 
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware', 
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware', 
'scrapy.spidermiddlewares.referer.RefererMiddleware', 
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware', 
'scrapy.spidermiddlewares.depth.DepthMiddleware'] 

[2018-01-31 21:08:32 [scrapy.middleware] INFO: Enabled item pipelines: 
['meijul00.pipelines.Meijul00Pipeline’] 

2018-01-31 21:08:32 [scrapy.core.engine] INFO: Spider opened 

[2018-01-31 21:08:32 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pag v 


图 5-58 Spider 中 间 件 Meijul 00DownloaderMiddleware 
程序 运行 符合 预期 设计 。Scrapy 就 可 以 随机 地 使 用 代理 池 中 的 代理 服务 器 了 。 
实际 反扑 虫 的 方法 远 不 止 这 一 些 ， 内 不 过 个 人 用 户 掌 握 这 些 也 够 用 了 。 个 人 用 户 动 则 成 
千 上 万 的 网 页 疏 取 毕竟 是 少数 。 


与 .号 ”本 章 小 结 


本 章 详细 介绍 了 Scrapy 疏 虫 框架 的 使 用 ， 由 易 到 难 演 示 了 Scrapy MEH MEHR [e] vi Tat 
程 ， 并 通过 疏 虫 与 反 疏 虫 的 攻守 过 程 ， 让 读者 一 罕 Scrapy 中 间 件 的 使 用 方法 。 从 使 用 的 难度 
来 说 ，Scrapy 可 以 算得 上 最 简单 的 息 虫 了 ， 简 单 到 只 需 做 填空 题 就 能 得 到 数据 ， 而 且 对 于 特 
殊 爬 虫 的 特殊 要 求 也 能 很 好 支持 。 
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上 一 章节 讲解 了 Python (MCA HESE Scrapy。 本 章 将 详细 讲解 另 一 个 Python Jf dh 
Beautiful Soups + Scrapy 不 同 的 是 Beautiful Soup 并 不 是 一 个 框架 ， 而 是 一 个 模块 。 因 此 ， 
Beautiful Soup 不 能 再 做 填空 题 了 ， 只 能 从 头 到 尾 地 写作 文 了 。 

Beautiful Soup 的 4.4.6 版 本 一 般 被 简称 为 bs4。bs4 同时 支持 Python 2 和 Python 3, 
bs4 在 网 上 的 教程 不 多 ， 好 不 容易 找到 几 个 ， 内 容 还 都 是 重复 的 。 本 章 内 容 主 要 参考 bs4 
的 官网 〈 网 址 为 http://beautifulsoup.readthedocs.io/zh CN/latesu) 教程 。 实 际 上 也 没有 什 
么 很 难 的 地 方 ， 与 Scrapy 相 比 ， 除 了 选择 过 滤 有 所 不 同 外 ，Beautiful Soup 就 是 一 个 普通 
的 Python 程序 。 


6. 1 安装 Beautiful Soup 环境 


bs4 并 不 是 软件 ， 只 是 一 个 第 三 方 的 模块 。 既 然 是 模块 ， 那 安装 起 来 就 比较 简单 了 。 前 
面 说 的 pip. easy install 都 可 以 (推荐 使 用 pip) o 


6.1.1 Windows 下 安装 Beautiful Soup 


在 Windows 下 安装 Beautiful Soup 最 简单 的 方法 还 是 使 用 pip 安装 。 打 开 cmd.exe, HUT 
命令 : 


pip install beautifulsoup4 


执行 结果 如 图 6-1 所 示 。 


2 Windows \system32}pip install beaut ifulsoup4 
ollecting beaut ifulsoup4 

Using cached https://pypi.doubanio.con/packages/9e/d4/18f 46e5cf ac773e22707237b 
cdS51bbffeafÜa576b8a847ec7abiSbd7ace/beautifulsoup4-4.6.0—py3-none-any.uhl 
Installing collected packages: beautifulsoup4 
Successfully installed beautifulsoup4-4.6.8 


| : Windows \system32>python 
Python 3.6.4 (v3.6.4:d48eceb, Dec 19 2017, 86:54:40) [MSC v.1908 64 bit CRMD6451 


"credits" or "license" for more information. 


图 6-1 Windows 安装 bs4 


da bs4 在 Windows 中 安装 时 也 需要 管理 员 权限 。 } 
bs4 已 安装 到 Windows 中 ， 可 以 直接 使 用 了 。 


6.1.2 Linux 下 安装 Beautiful Soup 


Linux 中 安装 还 是 借助 于 Debian 的 数据 库 ， 以 便于 管理 。 在 终端 中 以 root 用 户 〈 如 果 普 
通用 户 有 权限 ， 也 可 以 使 用 sudo 命令 安装 ) 执行 命令 : 


apt-get install python3-bs4 


执行 结果 如 图 6-2 所 示 。 


P king@debians: ~ 


root @debian8: /home/king# [apt-get install python3-bs4 
正在 读 取 软件 包 列表 ... 完 


正在 分 析 软 件 包 的 依赖 关系 树 

正在 读 取 状态 信息 ... 完成 

下 列 软 件 包 是 自动 安装 的 并 且 现 在 不 需要 了 : 
libasnl-8-heimdal libgssapi3-heimdal libhcrypto4-heimdal 
libheimbasel-heimdal libheimntlm0-heimdal libhx509-5-heimdal 
libkrbS-26-heimdal librokenl8-heimdal 1ibwind0-heimdal 

使 用 ‘apt-get autoremove X 8 © (Èf). 

将 会 安装 下 列 额 外 的 软件 包 : 
Python3-~ lxml 


建议 安装 的 软件 包 : 
python3-ixml-dbg 
下 列 【 新 】 软 件 包 将 被 安装 : 


python3-bs4 python3-lxml 


6-2 Linux 安装 bs4 
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基于 Debian 一 贯 的 保守 策略 ，apt-get 安装 的 并 不 是 最 新 版 本 ， 而 是 目前 最 稳定 的 版 本 
4.3.2。 


6.1.3 ”最 强大 的 IDE 一 一 Eclipse 


Python 环境 下 有 很 多 优秀 的 IDE, W Eclipse. Komodo, Sublime, Pycharm. vim. 
Emacs 等 ， 其 中 vim 和 Emacs 虽然 是 跨 平台 的 ， 但 配置 复杂 ， 而 且 界面 也 比较 简陋 ， 不 符合 
美学 原则 。Pycharm、Komodo 在 编译 Python 时 还 不 错 。 但 笔者 更 希望 使 用 一 款 能 包 打 天 下 
的 兼容 所 有 语言 的 IDE， 而 Eclipse 不 负 众望 ， 大 而 全 ， 配 合 插件 后 无 所 不 包 ， 无 须 安 装 到 系 
统 ， 可 直接 使 用 。 最 重要 的 是 Eclipse 免费 啊 ， 让 人 既 没有 使 用 盗版 的 负 次 感 ， 也 能 安然 享受 
全 部 的 服务 。Eclipse 是 跨 平台 的 IDE， 能 在 所 有 系统 下 运行 。 本 章 中 所 有 的 程序 如 不 特殊 注 
明 都 将 在 Windows 下 运行 。 

1. 安装 Eclipse 


打开 Eclipse 的 官网 下 载 页 面 http://www.eclipse.org/downloads/， 直 接 单 击 下 载 按 钮 ， 如 
图 6-3 所 示 。 


> QC D wwweclipse.org/download 


EME 


| Download Eclipse Technology that is 
| right for you 


cloud IDE. 


图 6-3 官网 下 载 Eclipse 
网 站 会 根据 访问 站 点 的 系统 (从 访问 者 的 headers 就 可 以 得 出 操作 系统 ) 推荐 安装 程 


序 。 本 次 下 载 网 站 推荐 的 是 eclipse-inst-win64.exe (前 面 说 过 Eclipse 无 须 安装 ， 是 绿色 程序 
并 非 笔 误 。 这 个 所 谓 的 安装 程序 基本 就 是 个 解压 缩 文 件 ) 。 左 键 双击 安装 程序 ， 要 求 选择 
Eclipse 的 版 本 ， 如 图 6-4 所 示 。 


218 


eclipseinstaller sc 


Eclipse IDE for Java EE Developers 


Tools for Java developers creating Java EE anc Web applications. including a Java 
IDE tools for java EE. JPA ISF. Mylyn. EGR and others. 


Eclipse IDE for C/C++ Developers 


An IDE for C/C++ developers with Mylyn integration. 


Eclipse IDE for JavaScript and Web Developers 


The essential tools for any JavaScript developer, including JavaScript language 
support, Git cient, Mylyn and editors for JavaScript, HTML. C55 and XML. 


Eclipse IDE for PHP Developers 


The essential tools for any PHP developer. including PHP language support. Git 
dient. Mylyn and editors for JavaScript. HTML. CSS and XML. 


6-4 选择 Eclipse 版 本 


单 击 Eclipse IDE for java Developers 就 可 以 了 。 因 为 是 for java， 所 以 还 得 下 载 java 依赖 


包 。 如 果 网 速 给 力 ， 用 不 了 几 分 钟 就 可 以 下 载 完毕 。 下 载 完毕 后 ， 


置 ， 如 图 6-5 所 示 。 


eclipseinstaller vco 


Eclipse IDE for Eclipse Committers 
一 


E 321 ed » 


¥ create start menu entry 


V create desktop shortcut 


X INSTALL 


€ Back 


6-5 选择 安装 位 置 


安装 程序 要 求 选择 安装 位 


填 入 合适 的 安装 位 置 后 ， 单 击 INSTALL 按钮 ， 稍 待 片刻 Eclipse 就 安装 完毕 。 双 击 桌 面 


上 的 Eclipse 


图 标 运行 Eclipse。 首 次 运行 时 会 提示 选择 工作 目录 ， 如 图 6-6 所 示 。 
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Select a directory as workspace 
Eclipse uses the workspace directory to store its preferences and development artifacts. 


Workspace: [CAUsersWing workspace | Browse... 


[Use this as the default and do not ask again 


图 6-6 选择 工作 目录 
填 入 Eclipse 的 工作 目录 ， 单 击 OK 按钮 ，Eclipse 界面 如 图 6-7 所 示 。 


File Edit Nevigate Search Project Run Window Help 


"s @ Welcome 13 EN 


hr 
Me aciem | 


" Get an overview ofthe features 


Review the IDE's most fiercely 
contested preferences 


ARM lors 


Git repository w Ne 
Find out what is new 


port existing p ts 
IMfBbrt existing Eclipse projects from 
the filesystem or archive 


图 6-7 Eclipse 界面 
Eclipse 安装 完毕 ， 下 一 步 将 安装 Eclipse 的 Python 插件 Pydev。 
2 . 安装 Pydev 插件 
在 Eclipse 的 菜单 上 单 击 Help | Install New Software 选项 ， 如 图 6-8 所 示 。 


220 


preferences 


Berk 
图 6-8 


打开 了 Eclipse (fd fF 22 Ft, Hed 


A. the IDE's most fier & 


8x. a new Eclipse Plu: 


Welcome 
Help Contents 

j Search 

Show Contextual Help 


Show Active Keybindings… Ctrl+Shift+L 
Tips and Tricks... 


Cheat Sheets... 


Perform Setup Tasks 
Check for Updates 
[3 install New Sofware eo 
®© Installation Details 
9 @ Eclipse Marketplace... 


© About Eclipse 


安装 Python 插件 


v 
ik 


装 源 ， 如 图 6-9 所 示 。 


Avallable Software 


Select a site or enter the location of a site. 


Work with type or select a site 


type filter text 


Name 
E QD There is ro site selected. 


I: Add 按钮 ， 加 入 Eclipse 的 Python 插件 Pydev 的 安 


Version 


© Add Repository 


Roe Pde 


cation: Htp://pydevorg/updates. 


6-9 


设置 完毕 后 单 击 OK 按钮 ，Eclipse 
Pydev 插件 ， 单 击 Next 按钮 ， 开 始 安装 P 


El Show only software applicable to target environment 
Contact ali update sites during install! to find required sofware 


are already installed 
installed? 


设置 Pydev 安装 源 


将 显示 出 这 个 安装 源 中 所 有 的 可 用 插件 。 单 击 选中 
ydev， 如 图 6-10 所 示 。 
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[emu Ix) 


Available Software 
Check the items that you wish to install 


(| | z 


Find more seftware by working with the “Available Software Sites" preferences. 


Version 
512201606231256. 
5:12201606231256. 
[ Selectal ]| DeseiectAl | 2 items selected 
Details 
Show only the latest versions of available software 回 Hide items that are aready installed 
IV! Group items by category What is already installed? 


E] show only software applicable to target emironmert 
[J| Contact all update sites during install to find required software 


® Back Frish d 
6-10 ”安装 Python 插件 Pydev 


单 击 Next 按钮 ， 选 择 同意 协议 后 继续 单 击 Next 按钮 ， 直 到 Pydev 安装 完成 。 因 为 是 从 
服务 器 下 载 的 缘故 ， 这 个 安装 可 能 会 有 点 慢 。 不 用 着 急 ，Pydev 并 不 大 。 如 果实 在 没 耐性 ， 
也 可 以 用 下 载 工具 将 Pydev 先 下 载 到 本 地 ， 离 线 安装 Pydev。 安 装 完毕 后 ， 按 照 提 示 重 启 
Eclipse， 开 始 配置 Pydev 插件 。Pydev 插件 只 需要 配置 Python 解释 器 的 位 置 就 可 以 使 用 了 ， 
其 他 的 配置 可 根据 需要 自行 调试 。 

在 Eclipse 菜单 栏 中 ， 单 击 Windows 菜单 ， 选 择 Preferences 选项 。 在 Preferences 对 话 框 
中 单 击 左 侧 的 pyDev， 选 择 Interpreter， 单 击 Python Interpreter 选项 ， 如 图 6-11 所 示 。 


Python interpreters (2g: python.exe}. Double-cick to rename, 


rode Recommander Name Location 


Interpreter Neme: 


6-11. 选择 Python 解释 器 位 置 
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单 击 New 按钮 ， 在 弹出 的 对 话 框 中 单 击 Browse 按钮 。 选 择 python.exe 的 路 径 ， 单 击 
OK 按钮 直到 Python 解释 器 导入 完毕 。 一 般 来 说 ， 下 一 步 应 该 是 给 Eclipse 加 载 中 文 包 。 但 
Eclipse Neon 版 本 还 很 新 ， 中 文 包 并 未 放出 ， 所 以 只 好 暂时 使 用 英文 版 本 的 。 如 果 非 要 中 文 
版 的 ， 那 只 能 重新 下 载 低 版 本 的 Eclipse 了 。 


3 . 创建 Python 项 目 


Eclipse 安装 配置 完毕 后 ， 开 始 创建 Python MA. 打开 Eclipse， 单 击 菜单 File | New | 
Project 项 ， 创 建 一 个 项 目 ， 如 图 6-12 所 示 。 


it Source Refactor Navigate Search Project Run Window Help 
New AlteShifteN » | 22 Java Project 


Open File... 


7j Open Projects from File System... | Package 


Close cal+W Class 
Close All Ctrl+Shift+w Interface 
Cul+S nm 
? Annotation 
j Source Folder 
| 39. Java Working Set 
Folder 
?了 File 
P Untitled Text File 
| E? JUnit Test Case 
Task 


Ctrl+Shitt+S 


Convert Line Delimiters To 


Print.. [M = 


图 6-12 Eclipse 创建 项 目 


在 弹出 的 对 话 框 中 选择 区 项 目 类 型 。 这 里 应 该 选择 PyDev 项 目 中 的 PyDev Project 子 项 
目 。 选 取 完 毕 后 ， 单 击 Next 按钮 继续 ， 如 图 6-13 所 示 。 


图 6-13 选取 项 目 类 型 
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在 弹出 的 对 话 框 中 输入 项 目 名 称 后 ， 单 击 Finish 按钮 ， 项 目 就 创 寻 


ETHET, WE 6-14 所 示 。 


< 


purum = 
Civsie a pex DyDev Project (d 


Project contents: 
© Use default 


E\save\sync\code\crawieribs4ProjectihelloPython |[Browse 
Project type. 
Choose the project type | 
S Python Cyhon © IronPython 


tory to the PYTHONPATH 

and add it to the PYTHONPATH 

Create links to existing cources (celect them on the next page) 
Don't configure PYTHONPATH (to be done manually later on) 

Working sets 


Flat project to working cete EM 


[o] [9 | we IDEST. c9 
图 6-14 Python 项 目 名称 


回 到 Eclipse 的 主 界面 下 ， 在 左 侧 将 出 现 刚 创建 的 Pydev 项 目 helloPython. 4 i 
helloPython 项 目 将 弹出 菜单 ， 选 择 New 选项 ， 弹 出 子 菜 单 ， 如 图 6-15 所 示 。 


Fle Edit Navigate Search Project Pydev Run Window Help 
Im. ESOS OS ee TES 

Hf PyDev Package... 3 = O 

^ (cb helloPithon: 

4P Dj New 

Go Into 3 File 
E 3 Folder 

t Link to Existing Source 
x Source Folder 


= 
ae 
ae 
e 
= 


Remove from Context Ctri+Alt+Shift+ Down 


6-15 Python 项 目 创建 文件 


如 果 是 创建 文件 和 文件 夹 ， 正 常情 况 应 该 是 选择 File 和 Folder 选项 ， 但 笔者 更 喜欢 使 用 
PyDev Module 和 PyDev Package 选项 。 因 为 选择 File 会 创建 一 个 空 文件 ， 这 个 文件 里 什么 都 
没有 。 而 PyDev Module 选项 会 创建 一 个 根据 预 设 模版 (菜单 Windows | Preferences | 
PyDev | Editor | Templates 下 的 <Empty> 项 ) 创建 的 .py 文件 ， 无 须 在 每 次 创建 文件 时 再 重复 
KH. Folder 将 创建 一 个 空 文件 夹 ， 而 PyDev Package 将 创建 一 个 包含 ”init py 的 文件 夹 
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(就 是 在 上 章 中 创建 的 中 间 件 文件 夹 middlewares) ， 可 以 将 这 个 文件 夹 下 的 Python 文件 当 
成 模块 导入 到 项 目 中 。 

下 面 来 测试 一 下 ， 创 建 一 个 PyDev Module， 名 为 hello.py， 创 建 一 个 PyDev Package 名 
为 testModule， 并 在 testModule 中 创建 一 个 PyDev Module， 名 为 myModule。 创 建 完毕 后 的 
目录 结构 如 图 6-16 所 示 。 


File Edit Source Refactoring 
Br ieri 0 


Hi PyDev Package... £2 


P" helloPython li 


4 i testModule 
fé _init_py 
4 B myModulepy 
Q showMe 
f) hello.py 


‘FF Droaram Files\python 


图 6-16 目录 结构 
【示例 6-1】 其 中 ，hello.py 的 内 容 如 下 : 


#!/usr/bin/evn python3 
#-*- coding: utf-8 -*- 


Created on '2016 年 8 月 6 日 ' 


@author: hstking hst_king@hotmail.com 
(rn 


from testModule.myModule import showMe 


if name == ' main ': 
print('Hello, I am first python script on eclipse') 
print (' 你 好 ， 我 是 在 eclipse 上 的 第 一 个 Python 程序 \n') 


showMe () 
testModule/myModule.py 的 内 容 如 下 : 


#!/usr/bin/evn python3 
#-*- coding: utf-8 -*- 


Created on 2016478 H 6 H 


@author: hstking hst_king@hotmail.com 


225 


def showMe () : 
print('I am a module') 


print (' 我 是 一 个 模块 \n') 
单 击 Eclipse 的 Run 菜单 ， 选 取 Run 选项 (Ctrl + F11) ， 或 者 直接 单 击 工具 栏 的 Run 1 


钮 ， 执 行 结果 如 图 6-17 所 示 。 
Orna = lin 


| Select a way to run ‘getTileAncUr.py: 


[E 
Python unt-test. 


| cescription 


o [Jc 


FA 6-17 选取 Python 解释 器 
选择 Python Run 后 单 击 OK 按钮 。 运 行程 序 ， 运 行 结果 如 图 6-18 所 示 。 


File Edit Source Refactoring Navigate Search Project Pydev Run Window Help 


I OM DT UU eS ee Quick Access |!) e$ | &) [88] 
I$ PyDev Package.. 3 = © P hello £ [f|testModule [P] myModule =. 


e&*|i- : 
4 ih helloPython. r p 


4 @ testModule 4 Created on 2016 +08 +060 
E init_py ‘feat ee 
Biante 6 author: hsthing hsthinafhotmail..com 

> B hello.py 


b @ DAProgram Files\python ° from testModule.myModule import showte 
1e 


1i if mae == 


12 CprintUA ) 

" print( 

14 —— showte() 

15 

© Console 1: a xko mw &bE(ERSY2-m--5 


ghelloPython\hello.py 


llo, I am first python script on eclipse 
jes. mazeclipsezme—tpythones! 


6-18 运行 Python 程序 


运行 无 误 ，Eclipse 测试 完毕 。 选 择 Eclipse 做 IDE 除了 它 跨 平台 、 支 持 语言 丰富 外 ， 还 因为 
Eclipse 有 着 强大 的 调试 功能 。 在 后 面 的 实例 中 会 演示 Eclipse Debug 调试 的 强大 方便 之 处 。 
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Ow Beautiful Soup 解析 器 


与 Scrapy 相 比 ，bs4 中 间 多 了 一 道 解析 的 过 程 CScrapy 是 URL 返回 什么 数据 ， 程 序 就 接 
受 什 么 数据 进行 过 滤 ) 。bs4 则 在 接收 数据 和 进行 过 滤 之 间 多 了 一 个 解析 的 过 程 。 根 据 解析 
器 的 不 同 ， 最 终 处 理 的 数据 也 有 所 不 同 。 加 上 这 一 步骤 的 优点 是 可 以 根据 输入 数据 的 不 同 进 
行 针 对 式 的 解析 ， 缺 点 就 是 可 能 会 让 使 用 者 选择 困难 ， 无 所 适 从 。 在 本 章 中 ， 统 一 选择 Ixml 
解析 器 。 


6.2.1 bs4 解析 器 选择 

网 络 爬 虫 最终 的 目的 就 是 过 滤 选 取 网 络 信息 ， 因 此 最 重要 的 部 分 就 是 解析 器 了 。 解 析 器 
的 优 劣 决 定 了 网 络 疏 虫 的 速度 和 效率 。Beautiful Soup 除了 支持 Python 标准 库 中 的 HTML fff 
析 器 外 ， 还 支持 一 些 第 三 方 的 解析 器 。 表 6-1 中 列 出 了 主要 的 解析 器 ， 以 及 它们 的 优 缺 点 。 


表 6-1 bs4 解析 器 对 比 


Python 标准 库 BeautifulSoup(markup,”html parser”) | Python 标准 库 Python 2.7.3 或 


执行 速度 适中 Python 3.2.2 之 前 
容错 能 力 强 的 版 本 ， 中 文 容 


错 能 力 差 

速度 快 需要 安装 C 语言 
容错 能 力 强 库 

Lxml XML 解析 器 | BeautifulSoup(markup,[“Ixml-xmI”]) | 速度 快 需要 安装 C 语言 
BeautifulSoup(markup,”xml”) 唯一 支持 XML 解析 器 
最 好 的 容错 性 速度 慢 


以 浏览 器 的 方式 解析 文 | 不 依赖 外 部 扩展 
档 


生成 HTMLS 格式 文档 


Ixml HTML 解析 | BeautifulSoup(markup,"Ixml") 
器 


htmlslib BeautifulSoup(markup,"html5lib") 


Beautiful Soup 官方 推荐 使 用 Ixml 作为 解析 器 ， 据 说 因为 xml 解析 器 的 效率 更 高 ， 在 此 
接受 官方 意见 。 本 章 所 有 的 bs4 候 虫 ， 如 无 特殊 说 明 都 将 使 用 lxml 解析 器 。 


6.2.2 Ixml 解析 器 安装 
1. Windows 下 安装 Ixml 解析 器 


这 里 需要 管理 员 权 限 ， 使 用 pip 安装 ， 执 行 命令 : 
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pip3 install lxml 


执行 结果 如 图 6-19 所 示 。 


:Windows\system32>pip install lxml 
ollecting lxml 


Using cached https://pypi.doubanio.con/packages/cb/b4/21319db4hef 36225ea0924a3 
[129332ab9989da7df aba790f a427ac105ee7/1xn1-4.1.1-cp36-cp36n-vin and64.uhl 
Installing collected packages: lxml 

Successfully installed 1xml-4.1.1 


Windows \systen32>,, 


-19 Windows 安装 Ixml 


在 cmd.exe 里 测试 一 下 ， 如 图 6-20 所 示 。 


6.1.76811 
权 所 有 <c> 2009 Microsoft Corporation。 保 留 所 有 权利 。 


:Nindowsssystem32>pip install lxnl 
ollecting lxnl 

Using cached https://pypi.doubanio.com/packages/cb/b4/21319db4bef36225ea8924a3 
l129332ab9989da7df aba?9Of a427aciQSee?7/1xn1-4.1.1-cp36-cp36n-vin amd64.uhl 
[Installing collected packages: lxml 
Successfully installed lxnl-4.1.1 


= Windows \system32>python 


opyright", "credits" or "license" for more information. 
» 


图 6-20 测试 xml 模块 
没有 提示 错误 ， 表 明 安 装 成 功 。 


2. Linux 下 安装 lxml 解析 器 


一 般 来 说 在 安装 bs4 时 xml 就 已 经 被 安装 过 了 ， 如 果 没 有 安装 ， 也 可 以 使 用 apt-get 命令 
重新 安装 一 下 ， 执 行 命令 : 


apt-get install python3-lxml 


执行 结果 如 图 621 所 示 。 
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P king@debian’: ~ 


root@debian8:/home/King apt-get install pythoni-lxml 
完成 


LTR, ENG 0 个 软件 包 ， 有 139 个 软件 包 未 被 升 


2,788 y 的 额外 空间 。 
eee python3- 
取 数 系统 当前 共 安 有 157274 个 文件 和 目录 。) 


-1 amdé4.deb 


root@debian8: /home/king# i 


6-21 Linux 安装 Ixml 
显然 Linux 的 apt-get 更 加 简单 方便 。 


6.2.3 ”使 用 bs4 过 滤器 


在 上 一 章 中 ，Scrapy 使 用 XPath 当 过 滤器 ， 在 网 页 中 过 滤 得 到 所 需 的 数据 。 本 章 bs4 则 
使 用 BeautifulSoup 做 过 滤器 。 与 XPath 相同 的 是 BeautifulSoup 同样 支持 戏 套 过 滤 ， 可 以 很 
方便 地 找到 数据 所 在 的 位 置 。 不 同 的 是 BeautifulSoup 的 查找 方式 更 加 灵活 方便 ， 不 但 可 以 通 
过 标签 查找 ， 还 可 通过 标签 属性 来 查找 。 而 且 bs4 还 可 以 配合 第 三 方 的 解析 器 ， 可 以 有 针对 
性 地 对 网 页 进行 解析 ， 使 bs4 威力 更 加 强大 、 方 便 。 

官网 教程 上 使 用 的 是 “爱丽 丝 梦 游 仙境 ”的 内 容 作 为 示例 文件 ， 但 这 个 文件 比较 大 ， 看 
起 来 没 那 么 直观 。 这 里 笔者 自 建 一 个 HTML 的 示例 文件 scenery.html， 通 过 对 scenery.html 的 
操作 过 滤 ， 再 对 照 官网 对 示例 文件 的 操作 方法 ， 很 容易 就 能 明白 bs4 是 如 何 过 滤 提 取 数 据 
的 。 


【示例 6-2】 自 建 示例 文件 scenery.html 的 内 容 如 下 : 


1 <html> 
2 <head> 


3 <meta charset-"utf-8"» 
4 <title> 武 汉 旅游 景点 </title> 

5 «meta name-"description" content=" 武 汉 旅游 景点 精简 版 " /> 
6 <meta name="author" content="hstking"> 

7 </head> 
8 

9 


<body> 
<div id="content"> 
10 <div class="title"> 
11 <h3> 武 汉 景点 </h3> 
12 </div> 
13 <ul class="table"> 
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14 <1i> 景 点 <a> 门 票 价格 </a></1i> 

15 «/ul» 

16 <ul class="content"> 

17 «li nu="1"> 东 湖 <a class="price">60 «/a»«/li» 

18 <li nu="2"> 磨 山 «a class="price">60 «/a»«/li» 

19 <li nu="3"> 欢 乐 谷 <a class="price">108 «/a»«/li» 

20 «li nu="4"> 海 昌 极 地 海洋 世界 «a class="price">150 «/a»«/li» 
21 <li nu="5"> 玛 雅 水 上 乐园 «a class="price">i50 «/a»«/li» 
22 </ul> 

23 </div> 

24 </body> 

25 </html> 


进入 文件 目录 执行 命令 : 


Python3 


from bs4 import BeautifulSoup 
soup = BeautifulSoup(open(‘scenery.html’), ‘lxml’) 


soup.prettify 


执行 结果 如 图 6-22 所 示 。 


>>> 
«bound method BeautifulSoup.prettify of «html» 

<head> 

«meta charset="utf-8"/> 

ktitle> 武 汉 旅游 景点 </title> 

<meta content=" 武 汉 旅 游 景 点 精简 版 " name="description"/> 
meta contente"hstking" name="author"/> 

</head> 

<body> 

«div ide"content"» 

«div class="title"> 


<n3> 武 汉 景点 </h3> 
</div> 
Kul class="table"> 


<1i> 景 点 <a> 门 票 价格 </a></1i> 


class="content"> 
nu="1"> 东 湖 «a class="price">60 </a></1i> 

nu="2"> 磨 山 <a class="price">60 </a></1i> 
nu="3"> 欢 乐 谷 «a class="price">108 </a></1i> 
nu="4"> 海 昌 极 地 海洋 世界 <a class="price">150 </a></li> 
nu="5"> 玛 雅 水 上 乐园 «a class="price">i50 </a></1i> 


图 6-22 soup.prettify 


bs4 会 将 所 有 输入 的 内 容 的 字符 编码 编 为 unicode。 输 入 内 容 为 英文 时 还 看 不 出 什么 优 
H, 但 在 过 滤 中 文 网 页 时 会 非常 方便 。 
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一 个 文件 或 一 个 网 页 ， 在 导入 BeautifulSoup 处 理 之 前 ，bs4 并 不 知道 它 的 字符 编码 是 什 
么 。 在 导入 BeautifulSoup 过 程 中 ， 它 会 自动 地 猜测 这 个 文件 或 是 网 页 的 字符 编码 。 常 用 的 编 
码 当然 会 又 快 又 好 地 猜 出 来 。 但 不 常用 的 编码 呢 ? 好 在 BeautifulSoup 还 有 两 个 非常 重要 的 参 


Xi: exclude encoding fil from encoding. 
参数 exclude encoding 的 作用 是 排除 掉 不 正确 的 字符 编码 。 例 如 ， 已 经 非常 确定 网 页 不 
是 iso-8859-7 也 不 是 gb2312 编码 ， 但 又 未 知 网 页 编码 时 ， 就 可 以 使 用 命令 : 


soup = BeaurtifulSoup(response.read(), exclude encoding-['iso-8859- 
7','gb2312']) 


此 时 bs4 就 会 放弃 猜测 这 两 种 编码 。 比 如 ， 如 果 已 知 网 页 的 具体 编码 是 big5， 也 可 以 直 
接 使 用 from encoding 参数 确定 编码 ， 让 bs4 放弃 猜测 ， 可 以 使 用 命令 : 


soup = BeaurtifulSoup(response.read(), exclude_encoding='big5') 


一 般 来 说 bs4 都 不 需要 自己 确定 编码 ， 常 用 的 字符 编码 它 都 能 检测 出 来 。 但 有 时 碰见 比 
较 生 个 的 编码 时 ， 这 两 个 命令 就 显得 非常 重要 了 。 中 文 的 字符 编码 是 个 非常 讨厌 的 问题 ， 如 
果 不 知 道 文件 的 字符 编码 ， 而 bs4 又 解析 编码 错误 时 ， 那 就 只 有 根据 官网 的 方法 ， 安 装 
chardet 或 者 cchardet 模块 ， 然 后 使 用 UnicodeDammit 自动 检测 了 。 

解决 字符 编码 这 个 问题 后 ， 已 经 得 到 了 soup 这 个 bs4 的 类 。 在 soup 中 ，bs4 将 网 页 节点 
解析 成 了 一 个 个 Tag。 同 名 的 Tag CHTML 中 的 标签 就 那么 几 个 ， 所 以 同名 的 Tag 会 非常 
多 ) 会 有 不 同 的 属性 。 即 使 同名 又 同属 性 的 Tag， 它 们 又 有 顺序 和 父 标签 的 区 别 。bs4 就 是 通 
过 这 些 不 同 将 所 需 的 数据 过 滤 出 来 的 。 

这 里 的 Tag 与 HTML 或 XML 中 的 Tag 是 一 致 的 。 执 行 命令 : 


Tagl = soup.ul 


得 到 的 结果 如 图 6-23 所 示 。 

以 上 命令 的 作用 是 通过 soup 来 获取 第 一 次 出 现 的 标签 名 为 ul 的 标签 内 容 。 用 同样 的 方 
法 ， 可 以 获取 第 一 个 出 现 的 ， 标 签名 为 div、li、head、title…… 的 标签 内 容 。 

如 果 某 个 标签 只 出 现 了 一 次 ， 比 如 <head>、<title> 标 签 ， 通 常 只 会 出 现 一 次 。 可 以 用 
soup.head 和 soup.title 的 方式 获取 标签 内 容 ， 还 可 以 用 bs4 过 滤器 soup.find(Tag, [attrs]) 的 方法 
获取 第 一 次 出 现 的 标签 的 内 容 。 执 行 命令 : 


soup.ul 


soup. find('ul') 


执行 结果 如 图 6-24 所 示 。 


>>> soup = BeautifulSoup(open('scenery.html'), 'lxml') 


class="table": 


> 
<a> 门 票 价格 </a></1i> 


TT 
1i> 景 点 <a> 门 票 价格 </a></1i> 
/ul» 

Ed 6-23 soup 获取 Tag 图 6-24 soup.find 获取 Tag 


在 一 个 HTML 文件 中 ， 有 的 标签 肯定 不 止 出 现 一 次 。 具 体 到 这 个 示例 文件 scenery.html 
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中 ，<div>、<ul>、<li> 就 不 止 出 现 一 次 。 第 一 次 出 现 的 标签 位 置 如 何 确定 已 经 很 清楚 了 ， 那 
第 二 次 、 第 三 次 、 第 N UWE? bs4 给 出 的 方法 是 soup.find_all(Tag，[attrs])。 使 用 soup.find_all 
命令 可 以 获取 所 有 符合 条 件 的 标签 列表 ， 然 后 直接 从 列表 中 读 取 就 可 以 了 。 执 行 命令 : 

soup.find all('ul') 

soup.find all('ul')[0] 

soup.find all('ul')[1] 


执行 结果 如 图 6-25 所 示 。 


»6 
"price"»108 </a></1i> 

m r, Ld <a class="price">150 «/a»«/1i» 
2 nu="5"> 玛 雅 水 上 乐园 «a clase="price">i50 </a></1i> 
Jul: 


图 6-25 soup.find_all 获取 Tag 


从 顺序 上 来 区 别 同名 标签 ， 这 样 出 现 再 多 的 同名 标签 也 可 以 很 从 容 地 定位 了 。 在 HTML 
中 ， 同 名 标签 比较 少时 ， 可 以 先 用 soup.find_all 来 获取 标签 位 置 列表 ， 再 用 一 个 个 数 的 方法 
来 确定 标签 位 置 。 如 果 这 个 列表 比较 短 还 好 ， 从 1 数 到 20 还 可 以 接受 。 如 果 这 个 列表 很 长 
呢 ? 从 1 BH 100 那 就 太 讨 厌 了 。 

还 是 以 scenery.html 文件 为 例 ， 文 件 中 的 <li> 标 签 ， 目 前 在 文件 中 只 出 现 了 6 次 。 如 果 列 
出 所 有 的 景点 ， 标 签 <li> 出 现 60 次 都 不 奇怪 。 仔 细 观 察 一 下 1i 标签 ， 它 们 除了 名 字 相 同 外 ， 
还 有 一 个 相同 的 属性 nu， 而 属性 nu 的 值 是 不 同 的 。bs4 过 滤器 Soup.find 和 soup.find_all 都 
支持 名 字 + 属 性 值 定位 。 

如 果 一 个 HTML 文件 中 出 现 了 标签 名 相同 ， 属 性 不 同 的 标签 。 例 如 ，scenery.html 文件 
中 的 <li> 标 签 ， 可 以 用 soup.find(TagName，attrs={attrName:attrValue}) 的 方法 获取 Tag 的 位 
置 。 比 如 需要 定位 标签 文字 为 欢乐 谷 的 那个 <li> 标 签 〈<li> 标 签 的 属性 是 相同 的 ， 都 是 nu, 
只 是 属性 值 不 同 ) 。 可 以 执行 命令 : 


soup.find('li', attrs-('nu':'3')) 


执行 结果 如 图 626 所 示 。 


>>> soup.find('li', attrs-('nu':'3')) 
<li nu="3"> 欢 乐 谷 «a class="price">108 «/a»«/li» 
>>> B 


6-26 soup.find 配合 属性 获取 标签 
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如 果 标 签名 相同 ， 属 性 相同 ， 连 属性 值 都 相同 的 标签 ， 那 就 用 soup.find alltagName, 
attrs={‘attName”:*attValue”}) 将 所 有 符合 条 件 的 标签 装 入 列表 ， 然 后 从 列表 中 慢 慢 地 数 。 请 放 
心 ， 一 般 情况 下 ， 标 签名 相同 ， 属 性 相同 ， 连 属性 值 都 相同 的 标签 在 任何 一 个 文件 中 都 是 很 
少见 的 。 在 sceneryhtml 文件 中 ， 符 合 这 个 条 件 的 只 有 <a> 标 签 〈 如 果 是 显示 完整 的 景点 <a> 
标签 也 会 很 多 ， 那 是 下 一 步 的 问题 ) 。 如 果 需 要 获取 景点 “ 磨 山 ” 这 一 行 的 <a> 标 签 ， 可 以 
执行 命令 : 

Tags = soup.find all('a', attrs={'class':'price'}) 

Tags[1] 


执行 结果 如 图 6-27 所 示 。 


>>> Tags = soup.find all('a', attrs-i'class':'price')) 
>>> Tags[1] 
<a class="price">60 </a> 


>> 


目前 HTML 没有 列 出 所 有 的 景点 ，<a> 标 签 还 比较 少 ， 如 果 列 出 了 所 有 景点 <a> 标 签 很 
多 ， 该 怎么 办 ? 再 仔细 观察 一 下 <a> 标 签 ， 所 有 <a> 标 签 的 标签 名 、 属 性 和 属性 值 虽然 是 相同 
的 ， 但 它们 的 上 级 标签 (也 就 是 常 说 的 父 标签 ) 的 标签 名 、 属 性 和 属性 值 总 不 可 能 相同 吧 ? 
即使 运气 再 差点 ， 上 级 标签 的 标签 名 、 属 性 、 属 性 值 都 相同 ， 上 上 级 标签 的 难道 也 相同 ? 还 
是 以 获取 景点 ，“ 磨 山 ” 这 一 行 的 <a> 标 签 为 例 ， 执 行 命令 : 

tmpTag = soup.find('li', attrs-('nu':'2']) 

tmpTag.a 

tmpTag.find('a') 


执行 结果 如 图 6-28 所 示 。 


>>> Tags = soup.find all('a', attrs-('class':'price']) 


ETES TIRATE 
«a class="price">60 </a> 


图 6-28 soup 嵌 套 获取 标签 


这 种 不 直接 定位 目标 标签 ， 先 间接 定位 目标 标签 的 上 级 (也 可 以 是 下 级 ) 标签 ， 再 间接 
定位 目标 标签 的 方法 ， 有 点 类 似 于 Scrapy 中 XPath KREI T o 

实际 上 ， 如 果 觉 得 目标 标签 没什么 显著 特征 ， 上 级 标签 和 下 级 标签 也 没有 什么 显著 特 
征 。 还 可 以 定位 目标 标签 的 兄弟 标签 。 不 过 这 种 方法 一 般 很 少 用 ， 这 里 就 不 多 说 了 。 有 兴趣 
的 读者 可 以 参考 官方 文档 。 

一 般 来 说 ， 最 终 需 要 获取 保存 的 数据 都 不 会 是 标签 ， 而 是 标签 里 的 数据 ， 这 个 数据 有 可 
能 是 标签 所 包含 的 字符 串 ， 也 有 可 能 是 标签 的 属性 值 。 不 过 获取 标签 后 ， 要 数据 那 就 很 简单 
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了 。 例 如 ， 获 取 示 例文 件 中 海 昌 极地 海洋 世界 这 个 景点 的 序号 和 票 价 ， 也 就 是 这 一 行 标签 
<li> 的 属性 nu 的 值 和 <a> 标 签 包含 的 字符 串 ， 可 以 执行 命令 : 


Tag = soup.find('li', attrs-('nu':'4']) 


Tag.get (‘nu’) 
Tag.a.get text()" 


执行 结果 如 图 6-29 所 示 。 


>>> Tag = soup.find('1i', attrs={'nu':'4"}) 


图 6-29 soup 获取 数据 


如 果 只 需要 做 简单 仆 虫 ， 了 解 以 上 知识 就 可 以 了 。 如 果 需 要 对 bs4 进行 深度 挖掘 ， 还 需 
要 读者 自行 参考 bs4 的 官方 文档 。 


é .3 bs4 [ErBsetk— : 获取 百度 贴吧 内 容 


笔者 是 个 美剧 迷 ， 经 常 在 网 上 追 剧 ， 偶 尔 也 在 百度 贴吧 上 看 看 美剧 贴 ， 可 又 比较 懒 ， 天 
天 登录 贴吧 查看 贴 子 觉得 很 麻烦 。 干 脆 就 写 个 怜 虫 让 它 自动 肘 内 容 好 了 ， 有 空 就 看 看 哪些 帖 
子 回复 了 ， 又 有 哪些 新 贴 。 这 里 以 百度 贴吧 里 的 “权利 的 游戏 吧 ” 为 例 。 


6.3.1 目标 分 析 

百度 贴吧 中 “权利 的 游戏 ”的 URL Æ http://tieba.baidu.com/f?kw=%E6%9D%83%E5% 
88%A9%E7%9A%84%E6%B8%B8%E6%88%8F&cie=utf8&pn=0。 看 起 来 很 乱 是 不 是 ? 仔细 看 
看 这 个 URL， 其 中 包含 有 ie=utf-8， 说 明 那 个 浏览 器 接受 的 是 utf8 的 字符 编码 。 正 好 ， 
Python 3 默认 的 编码 就 是 utf-8。 可 以 省 下 好 多 事 。 而 %E6%9D%83%E5%88%A9%E7%9A% 
84%E6%B8%B8%E6%88%8F 实际 上 是 unicode 编码 的 权利 的 游戏 转 码 成 utf-8 编码 而 来 的 。 
这 种 url 转 码 在 Python 3 中 有 专门 的 模块 urllib.parse 来 转换 ， 如 图 6-30 所 示 。 
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Bi EGER OH python = @ 


(SE tt ] 


:Msers\king}python 
[Anaconda custom (G4-bit)| (default, Jan 16 2018, 10:22:32) [NSC v. 
ME PY Vii (MD69] on win3? 

a iis licensa” f: informaii 


Tr 
encode ^ 
A erate retested xe? Sa Bde b Ea eb lx BE 


urllib. parse. motel RAE E T d 
EENSTARSHESAASGAONESRBONGERE TN SAA LAUNE RB DEAN RE" 


»- 


LI 
6-30 ”编码 转换 


这 个 由 “权利 的 游戏 ”转换 而 来 的 乱码 是 不 是 很 眼熟 。 所 以 这 个 URL 原本 的 状态 应 该 是 
http://tieba.baidu.com/f?kw= 权 利 的 游戏 &ie=utf-8&pn=0， 将 其 中 的 中 文 转 码 后 交 给 python 程 
序 处 理 就 可 以 了 。 

在 网 页 上 单 击 “ 下 一 页 ”按钮 ,浏览 器 跳 转 得 到 的 URL 是 http://tieba.baidu.com/f?kw= 
A ED UE CE UK. 好 的 ， 
明白 了 。 每 单 击 一 次 “下 一 页 ”按钮 ，pn 都 将 增加 50。 

在 浏览 器 (这 里 使 用 的 是 Chrome 浏览 器 ， 其 他 浏览 器 基本 上 都 差不多 ) 中 打开 这 个 
URL， 查 看 帖子 标题 ， 如 图 6-31 所 示 。 


ili [ose 


[65:9 DATSE EARS 


mike grues 


图 6-31 bs4 MERIT H 


在 页 面 空白 处 右 击 ， 选 择 “ 查 看 网 页 源 代码 ”， 在 页 面 源 代 码 网 页 按 Ctrl+F 键 打开 查找 
框 ， 在 查找 框 内 输入 第 一 个 帖子 的 标题 名 ， 找 到 所 需 数 据 位 置 ， 如 图 6-32 所 示 。 


(Bamm. ROMS BIS. 22e 


kt hor_namedquot: squat :Carpe_ Dicn qot , Aquat firet_post_idhquot 293081190800, aquot rep 
iot vidiquot Tiquot-&quot.,Rquot.is, goodkquot zmull,&quot;is topkquot.:null,&quot;is protal&quot 


图 6-32 所 需 数据 位 置 


找到 所 需 数据 的 位 置 后 ， 仔 细 观 察 一 下 ， 发 现 所 有 帖子 都 有 一 个 共同 的 标签 <li class=" 
j thread list clearfix"> 〈 这 个 标签 还 有 其 他 的 属性 ， 只 需要 一 个 共同 的 属性 就 够 了 ) 。 所 以 只 
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需要 用 bs4 过 滤器 find all 找到 所 有 的 标签 ， 然 后 再 进一步 分 离 出 所 需 的 数据 就 可 以 了 。 


6.3.2 ”项目 实施 


既然 思路 都 已 经 明确 了 ， 那 就 开工 吧 。 打 开 Eclipse， 单 击 New 图 标 右 侧 的 三 角 按钮 ， 
在 弹出 菜单 中 选择 PyDev Project 项 ， 如 图 6-33 所 示 。 


Soa 


9 Source Folder 
E PyDov Package 


回 PyDev Module 
Cj Folder 

? File 

| Untitled Text Fie 


F3 Other... 


图 6-33 Eclipse 创建 Python 新 项 目 
在 弹出 的 对 话 框 中 输入 项 目 名 称 ， 单 击 Finish 按钮 ， 如 图 6-34 所 示 。 


ject - PyDey - Eclipse 

file Edit Navigate Search Project Pydev Run Window Help 
Bly OMT 

I$ PyDev Package... 3 = O 


© 一 
PyDev Project 


Create a new PyDev Project. 


Project name:_baiduBS4 
Project contents: 

E] Use default 

E,\save\sync\code\crawler\bs4Project\baiduBS4S 

Project type 

Choose the project type 

© Python © Jython © IronPython 
Grammar Version 
(22 


Interpreter 
[Default 


Click here to configure an interpreter not listed. 
@ Add project directory to the PYTHONPATH 
Create ‘src’ folder and add it to the PYTHONPATH 
> Create links to existing sources (select them on the next page) 


Don't configure PYTHONPATH (to be done manually later on) 
Working sets 


E Add project to working sets (New. ] 


(new Ca ee 


634 输入 项 目 名 
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在 Eclipse 的 左 侧 右 击 刚 建立 的 项 目 baiduBS4， 在 弹出 的 菜单 中 选择 New | PyDev 
Module 菜单 。 在 项 目 中 创建 一 个 新 的 Python 模块 〈 前 面 提 到 过 ， 这 里 选择 PyDev Module 是 


为 了 方便 。 非 要 选择 file， 从 零 开始 一 步 步 地 创建 一 个 Python 文件 当然 也 可 以 ) ， 如 图 6-35 
所 示 。 


S bs4Project - PyDev 
Fie Edit Navigate Search Project Pydev Run Window Help 
Fl ee Oy bese, 


I PyDev Package 


+ T Project. 


9 Fie 


(3 Folder 

(9 Link to Eistirg Source 
(9 Source Folder 

1) PyDev Module 


QW PyDer Package 
Ctrl Alte Shift+Down 


T3 Other... 


图 6-35 在 项 目 中 创建 Python 文件 


在 弹出 的 对 话 框 中 输入 Python 文件 的 文件 名 《〈 无 须 加 后 缀 名 ) ， 右 击 Finish 按钮 。 
Python 文件 创建 完成 ， 如 图 6-36 所 示 。 


ct = | 


File Edit Navigate Search Project Pydev Run Window Help 
ET "Om Ts 
I$ PyDev Package... 2 © O 


4 天 baiduBS4 


— —— 
Create a new Python module 


Source Folder /baiduBS4 


Package 


Name [zT 9 


[ae ee 


6-36 Python 文件 名 


【示例 6-3 】 在 新 创建 的 getCommentInfo.py 中 输入 代码 ，getCommentInfo.py 的 代码 如 下 : 


1 #!/usr/bin/evn python3 
2 $4-*- coding: utf-8 -*- 
gue 
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Created on 20164 8H 9H 


@author: hstking hst_king@hotmail.com 


© 0 - O0 0 


10 import urllib.request 

11 import urllib.parse 

12 from bs4 import BeautifulSoup 

13 from mylog import MyLog as mylog 
14 import codecs 

Io 

16 

17 class Item(object): 

18 title - None # 帖 子 标题 

19 firstAuthor = None Td 
20 firstTime = None Mf Gta} i 
gu reNum - None # 总 回复 数 

22 content = None # 最 后 回复 内 容 
23 lastAuthor = None “ # 最 后 回复 者 
24 lastTime = None # 最 后 回复 时 间 


25 

26 

27 class GetTiebaInfo (object) : 

28 def init  (self,url): 

29 self.url - url 

30 self.log - mylog() 

sul self.pageSum = 5 

32 self.urls = self.getUrls (self.pageSum) 
55 self.items = self.spider(self.urls) 
34 self.pipelines (self.items) 

35 

36 def getUrls (self,pageSum): 

37 urls = [] 

38 pns = [str(i*50) for i in range(pageSum) ] 
39 ul = self.url.split('-') 

40 for pn in pns: 

41 ul[-1] = pn 

42 url = '='.join(ul) 

43 urls.append (url) 

44 self.log.info ("RH URLS 成 功 ') 

45 return urls 

46 
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47 def spider (self, urls): 


48 items = [] 
49 for url in urls: 
50 htmlContent = self.getResponseContent (url) 
51 soup = BeautifulSoup(htmlContent, 'lxml') 
52 tagsli = soup.find all('li',attrs-('class':' j thread list 
clearfix'}) 
53 for tag in tagsli: 
54 item = Item() 
55 item.title = tag.find('a', 
attrs-('class':'j th tit']).get text().strip() 
56 item.firstAuthor - tag.find('span', attrs-('class':'frs- 
author-name-wrap']).a.get text().strip() 
57 item.firstTime = tag.find('span'，attrs={'title': "创建 时 间 
"}) .get_text() .strip() 
58 item.reNum = tag.find('span', attrs={'title':'H 
"}) .get_text().strip() 
59 item.content = tag.find('div', 
attrs={'class':'threadlist_abs threadlist_abs_onlyline '}).get_text().strip() 
60 item.lastAuthor = tag.find('span', 
attrs-('class':'tb icon author rely j_replyer'}).a.get_text().strip() 
61 item.lastTime = tag.find('span'，attrs={'title':' 最 后 回复 时 
间 '}) .get_text () .strip() 
62 items .append (item) 
63 self.1og.info('" 获 取 标 题 为 <<ss>> 的 项 成 功 ...' Sitem.title) 
64 return items 
65 
66 def pipelines(self, items): 
67 fileName = "百度 贴吧 _ 权 利 的 游戏 .txt'# .encode ('utf-8') 
68 with codecs.open(fileName, 'w', 'utf-8') as fp: 
69 for item in items: 
70 try: 
7 fp.write('title:%s \t author:%s \t firstTime:%s \r\n 


content:%s \r\n return:%s \r\n lastAuthor:%s \t lastTime:%s \r\n\r\n\r\n\r\n' 
72 $(item.title, item.firstAuthor, item.firstTime, 
item.content, item.reNum, item.lastAuthor, item.lastTime) ) 


73 except Exception as e: 

74 self.10g.error(' 写 入 文件 失败 ') 

Mo else: 

76 self.10g.info(' 标 题 为 <<%s>> 的 项 输入 到 "%s" 成 功 ' 
$(item.title, fileName)) 

TI 

78 def getResponseContent(self, url): 
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79 '"'' 这 里 单独 使 用 一 个 函数 返回 页 面 返 回 值 ， 是 为 了 后 期 方便 的 加 入 proxy 和 
headers 等 


80 Ps 

81 urlList = url.split('=') 

82 urlList[1] = urllib.parse.quote(urlList[1]) 

83 url = '='.join(urlList) 

84 try: 

85 response = urllib.request.urlopen (url) 

86 except: 

87 self.log.error('Python 返回 URL:%s 数据 失败 ' surl) 
88 else: 

89 self.log.info('Python 返回 URUL:%s 数据 成 功 ' $url) 
90 return response.read() 

91 

92 


93 if name  -- ' main ': 
94 url = 'http://tieba.baidu.com/f?kw-BURlÍfJüfXksie-utf-8&pn-50' 
95 GTI = GetTiebaInfo (url) 


按照 上 面 的 步骤 ， 在 项 目 中 重新 建立 一 个 名 为 mylog.py 的 PyDev Module (也 可 以 是 一 
个 单纯 的 File) 。 


【示例 6-4] mylog.py 的 内 容 如 下 : 


#!/usr/bin/env Python3 

# -*- coding:utf-8 -*- 
#Author :hstking 

#E-mail :hst_king@hotmail.com 
#Ctime :2015/09/15 

#Mtime  : 


#Version : 


© 0-100540 N RH 


import logging 


m 
o 


import getpass 


m 
m 


import sys 


PRR 
心 WD 


HHHE 定义 MYLog 类 
class MyLog (object): 


p 
a 


16 #### 类 MyLog 的 构造 函数 

17 def ^ init__(self): 

18 self.user - getpass.getuser() 

215) self.logger - logging.getLogger (self.user) 
20 self.logger.setLevel (logging.DEBUG) 
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20 


22 HH HEXA 


23 
24 


self.logFile = sys.argv[0][0:-3] + '.log' 


self.formatter = logging.Formatter('$(asctime)-12s $(levelname)- 


8s $(name)-10s %(message)-12s\r\n') 


25 
26 
2 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
E 
58 
59 
60 


项 目 代码 已 经 完成 了 。 此 时 Eclipse 中 的 项 目 如 图 


#### 日志 显 示 到 屏幕 上 并 输出 到 日 志文 件 内 
self.logHand = logging.FileHandler (self.logFile, 


self.logHand.setFormatter (self.formatter) 
self.logHand.setLevel (logging. DEBUG) 


self.logHandSt = logging.StreamHandler () 


self.logHandSt.setFormatter (self.formatter) 


self.logHandSt.setLevel (logging. DEBUG) 


self .logger.addHandler (self.logHand) 
self.logger.addHandler (self.logHandSt) 


#### HER 5 个 级 别 对 应 以 下 的 5 个 函数 


def debug(self,msg) : 
self. logger.debug (msg) 


def info(self,msg) : 
self.logger.info (msg) 


def warn(self,msg): 
self.logger.warn (msg) 


def error(self,msg): 
self.logger.error (msg) 


def critical(self,msg): 
self.logger.critical (msg) 


if name == ' main ': 


mylog = MyLog() 
mylog.debug(u"I'm debug 测试 中 文 ") 
mylog.info("I'm info") 
mylog.warn("I'm warn") 
mylog.error(u"I'm error 测试 中 文 ") 
mylog.critical ("I'm critical") 


6-37 所 示 。 


encoding-'utf8') 
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File Edit Source Refactoring Navigate Search Project Pydev Run Window Help 
"OOD TU Os Quick Access [| 


6 @author: hstking h: 


B hellopthon 
105 import urllib2 
11 from bs4 import Beautifulsoup 
from mylog import MyLog as mylog 


class Item(object): 
title = None 
firstAuthor = None 
firstTime = None 
reNum = None 
content = None 
lastAuthor = None 
lastrime = None 


6-37 Eclipse Ji baiduBS4 


单 击 菜单 栏 上 的 运行 图 标 ， 程 序 运 行 完毕 后 单 击 baiduBS4 项 目 图 标 ， 按 FS 键 刷新 。 得 
到 的 结果 如 图 6-38 所 示 。 


File Edit Navigate Search Project Pydev A Run Window Help - 
HTUJUESURTOTQ-mYTSuUETS ace: as | A Re 


I8 PyDev Package... £2 È 站 getCommenti. D 百度 贴吧 权利 的 游戏 bt 0 =o 
ltitle:mmemermactedenl-6aisteesire aS Ahpu461O0 — author :siremithpud ^ 
2 content: 国 
3 return:110 
a getCommertinfolog 4 lastAuthor:jobforduani lastTime:23:17 
P) getCommentinfo.py s 
B mylogpy z 


603878260 — firstTime:8- 
Rrasa acea za: me" SR ox 


a heloPython stAuthor:sgme-sme — lastTime:23:17 


title:sasexsercecsetezn pe —— author:gitiSVeasee firstTime:8-1 
content:wsBu:H 9988 ass 

retur 

lastAuthor:zwgue00  lastTime:23:17 


title:gg3aaegau-mienl-68.28-294 4 TUA; RUTHOHROTEEREe author:dk 
23 content BaRsytvE266 MiwenseEEE ytvi)óS v nea AXNES entsea- 
D] J 


© Console $2 Pi PyUnit 面 尖 站 I Tid a ae Daa 
«terminated» E:\save\syne\code\crawler\bs4Project\baiduBS4\getCommentinfo.py 


2016-08-16 23:17:34,651 INFO king 
FA 6-38 Eclipse 运行 结果 


运行 完毕 后 得 到 了 两 个 新 文件 。 一 个 是 log 文件 getCommentInfo.log， 一 个 是 爬虫 保存 结 
果 文 件 “ 百 度 贴 吧 _ 权 利 的 游戏 .txt”。 在 “百度 贴吧 _ 权 利 的 游戏 .txt” 文 件 中 的 中 文明 显 有 
乱码 ， 没 关系 ， 那 是 因为 直接 用 Eclipse 的 编辑 器 打开 的 缘故 。 右 击 Eclipse 左边 “百度 贴吧 _ 
权利 的 游戏 .txt” 的 图 标 ， 在 弹出 的 菜单 中 选择 Open With 菜单 ， 然 后 在 弹出 的 子 菜单 中 选择 
System Eitor 项 ， 使 用 Windows 自 带 的 笔记 本 打开 文件 ， 乱 码 就 不 见 了 ， 如 图 6-39 所 示 。 
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— Pydev Run Window 
OQ UI Tm. Quick Accees |:| e | & H 


= O [P getCommentinfo 2) getCommentl. © EREE TELE K”, = = 
$c i € 
[ 


| 
title: 【整理 】 权利 的 游戏 1-6 季 高 清 无 册 | 咸 要 的 加 whpu4510 
content; 


return:110 
lastAuthor : jobforduanl lastTine:23:17 


author: PD firstlime:8-9 


639 笔记 本 打开 文件 


这 是 因为 “百度 贴吧 _ 权 利 的 游戏 .txt” 文 件 中 数据 保存 的 是 utf8 编码 。 Eclipse 自 带 的 文 
字 编 辑 器 默认 支持 的 是 GBK 编码 ， 所 以 会 显示 乱码 。 而 Windows 记事 本 notepad 虽然 也 默 
认 支 持 的 是 GBK， 但 是 它 同时 也 支持 utf8 编码 。 


6.3.3 ”代码 分 析 


在 项 目 baiduBS4 中 除了 主 程序 外 ， 笔 者 还 自 定义 了 一 个 mylogpy 模块 (对 ， 就 是 模块 ， 这 个 
Python 程序 就 是 做 模块 用 的 ) 。 这 个 模块 的 作用 很 明显 ， 就 是 为 了 主 程序 提供 log 功能 。 

log 功能 很 重要 。 虽 然 Eclipse 已 经 提供 了 非常 方便 的 Debug 功能 ， 没 有 log 配合 就 只 能 
eee BPX. JLT ILA Re, Be d BULL 9C EBERT, 一旦 

» BA log 帮助 定位 ， 很 难 找到 错误 点 。 

p mylog.py 写 得 很 简单 ， 只 是 将 Python 的 标准 模块 logging 简单 地 包装 了 一 下 。 第 
9-11 行 导 入 了 所 需 的 Python 模块 。 第 15 行 创建 了 一 个 新 的 类 。 第 18~24 行 定义 了 log 文件 
的 文件 名 、 用 户 名 、log 的 等 级 以 及 log 文件 的 格式 。 这 里 要 稍 做 说 明 的 是 ， 在 log 的 格式 
selfformatter 的 最 后 添加 了 一 个 \wn。 那 是 因为 在 Windows 下 换行 符号 是 mm， 如 果 是 在 Linux 
下 ， 加 \ 就 可 以 了 。mylog.py 这 个 自 建 模块 在 Windows 和 Linux 下 基本 是 通用 的 。 

第 27-36 行 则 定义 了 两 个 loghandler。 一 个 是 将 log 输出 到 文本 中 ， 一 个 是 将 log 输出 到 
终端 方便 调试 。 第 39~52 行 则 按照 logging 模块 定义 了 5 个 log 级 别 。 

主 程序 getCommentInfo.py 也 比较 简单 。 第 10~14 行 还 是 导入 所 需 的 模块 。 在 第 17-24 
行 定义 了 一 个 新 类 。 还 记得 Scrapy 框架 中 的 items.py 吗 ? 主 程序 里 的 Item 类 就 是 仿照 
Scrapy 框架 中 的 items.py 写 的 。 个 人 认为 Scrapy 的 框架 非常 方便 ， 也 很 合理 ，Scrapy 优秀 的 
地 方 就 直接 学 习 借鉴 了 。 也 可 以 完全 参考 Scrapy 的 方法 ， 重 新 建立 一 个 Python 模块 ， 将 这 
个 类 放 到 一 个 单独 的 文件 中 。 

第 27 THA f — E28. 58 29 TEM SMM AA URL。 第 30 行为 类 创建 了 一 个 
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log. 58 29 行 则 定义 了 疏 行 的 页 数 ， 这 里 定义 只 改行 了 5 页 ， 实 际 上 有 接近 1000 页 可 疏 。 如 
有 必要 ， 完 全 可 以 一 网 打 尽 。 第 32-34 行 执行 类 函数 。 

第 36-45 行 定义 了 一 个 getUrls 的 类 函数 。 这 个 函数 的 作用 是 根据 页 面 变化 的 规律 (每 向 
后 翻 一 页 ，pn 增加 50，， 将 所 有 的 URL 装 入 一 个 列表 中 去 ， 供 下 一 个 类 函数 调用 。 

第 47~64 行 定 义 了 一 个 spider 的 类 函数 。 这 个 函数 也 参考 了 Scrapy 的 spider。 与 scrapy 不 
同 的 是 Scrapy 使 用 的 是 XPath 过 滤器 ， 而 这 里 使 用 的 是 bs4 的 BeautifulSoup 过 滤 有 用 数据 。 
第 52 行使 用 soup.find all 函数 将 所 有 符合 条 件 的 数据 装 入 了 tagsli 列表 中 。 第 51-61 行使 用 
for 函数 遍历 整个 列表 ， 将 有 效 数据 过 滤 出 来 ， 添 加 到 items 列表 中 ， 供 下 一 个 函数 处 理 。 

第 68~76 行 把 得 到 的 items 列表 写 入 到 最 终 的 数据 保存 文件 “百度 贴吧 _ 权 利 的 游 
戏 .txt” 中 去 。 其 中 还 添加 了 一 个 try 语句， 防止 写 入 文件 失败 。 

第 78-90 行 定义 了 getResponseContent 函数 ， 这 个 函数 的 作用 很 简单 。 从 函数 入 口 接收 
一 个 带 有 中 文字 符 的 Url， 将 其 转换 成 url 编码 后 向 服务 器 提出 请 求 ， 最 后 返回 请 求 结果 。 功 
能 很 简单 ， 这 里 用 单独 一 个 函数 是 为 了 以 后 扩充 功能 。 比 如 使 用 proxy 代理 ， 添 加 headers 
等 。 这 个 就 有 点 类 似 于 Scrapy 框架 中 的 中 间 件 。 一 旦 发 现 怜 虫 被 禁止 ， 就 可 以 在 这 个 函数 中 
做 出 相应 的 修改 ， 避 开封 锁 。 

第 93~95 行 是 _main 函数 ， 实 例 化 GetTiebalnfo 类 。 


6.3.4 Eclipse 调试 


虽然 在 Windows 下 也 可 以 使 用 pdb 模块 对 Python 程序 进行 调试 。Pdb 的 强大 当然 是 无 须 
质疑 ， 但 直观 上 来 说 就 远 远 不 如 Eclipse 了 。 下 面 就 牛刀 小 试 ， 实 验 一 下 Eclipse 的 调试 功能 。 

首先 要 做 的 是 在 程序 中 添加 断 点 ， 也 就 是 程序 运行 中 暂停 中 断 的 位 置 。 在 所 需 中 断 行 的 
最 前 方 ， 行 号 的 前 面 空白 处 双击 右键 ， 会 出 现 一 个 绿色 气球 的 图 标 ， 表 明 断 点 已 经 设立 成 
功 。 这 里 只 在 41 行 和 60 行 设 置 了 2 个 断 点 ， 如 图 6-40 所 示 。 


D 百度 贴吧 .权利 的 游戏 bct 
@ D:\Program Files\python 


6-40 Eclipse 设置 断 点 
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再 单 击 Eclipse bse ie Aine lbs, WEA REGN. et pe NE k ERA 
始 调试 。 程 序 运行 到 断 点 处 会 自动 停止 运行 ， 单 击 图 标 栏 的 箭头 图 标 进行 单 步调 试 。 在 程序 
栏 中 的 箭头 指向 运行 的 位 置 。 可 以 在 变量 标签 中 观察 变量 的 值 。 测 试 完毕 后 可 以 单 击 图 标 栏 
的 停止 图 标 退 出 调试 ， 如 图 6-41 所 示 。 


|| File Edit Souree Refactorir Project miden 
xo TRAE eee» so” Se ov 


debug RE 
© œ Variables £2 | 9g Breakpoints. 


module» [pydevd.py.1530] 
aË getCommentinfo.py 


sl aii 
self. EHE IUS] 


1 
an join(ul) 
pend(url) 


leautifulSoup (bs4) 
4— myloy de MS 1g (mylo is 


, 
S-sx kee Ro CCPIP | 


图 6-41 Eclipse 调试 
配合 log 模块 ， 即 使 程序 出 现 什 么 问题 也 可 以 很 容易 地 找到 出 错 的 位 置 ， 方 便 修改 。 


6. bs4 ERZE: 获取 双色 球 中 奖 信息 


在 国内 ， 唯 一 能 合法 暴 富 的 方法 似乎 只 有 彩票 中 奖 了 。 虽 然 人 人 都 知道 中 奖 的 概率 很 
低 ， 但 希望 总 是 存在 的 。 中 奖 的 号 码 虽 然 无 法 直接 推算 出 来 ， 但 根据 概率 计算 将 中 奖 的 概率 
稍微 调 大 点 那 还 是 可 能 的 《据说 所 有 赌场 都 有 这 样 一 条 潜 规 则 ， 不 欢迎 数学 家 进入 赌场 ， 就 
是 为 了 防止 客人 计算 概率 。 电 影 《 决 胜 21 点 》 就 是 根据 真实 事件 改编 ， 而 历史 上 最 出 名 的 因 
概率 计算 被 赌场 禁止 入 场 的 人 是 日 本 的 山本 五 十 六 ) 。 在 进行 概率 计算 前 要 做 的 就 是 收集 数 
据 ， 好 在 中 国 福利 彩票 并 不 禁止 收集 数据 进行 概率 计算 。 如 何 计算 概率 不 是 本 章 的 内 容 ， 本 
章 只 负责 将 数据 收集 后 存 入 到 数据 库 中 。 
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6.4.1 目标 分 析 


在 中 彩 网 中 打开 双色 球 的 往 期 中 奖 信息 页 面 ( 这 里 使 用 的 是 Chrome 浏览 器 ， 其 他 的 浏 
览 器 可 能 会 稍 有 区 别 ) 。 网 址 为 ee ne mena 


如 图 6-42 所 示 。 


€ D www.zhew.com/ssq/kaijiangshuju/index.shtml?type=0 


ERE | 网 站 地 图 | 0 FUERA | FAN 


Dion as MAANDADA assos 
zo mum ("AM msc 
pcr rr M 
mesmo mum ("A cmm 2 


图 6-42 双色球 往 期 中 奖 


彩票 新 闻 。 机 构 ”专题 报道 ner RAF BER HAR itt 彩民 之 家 站 主 dd 
REAR 政策 ”行业 数据 福彩 3D Ws 全 国 开奖 BE ”短信 福彩 公益 BH 3 
中 彩 视频 BE 。 开奖 视频 the ERS 地 方 彩 种 WHE 63 省 市 之 窗 £6 * 


Pp mm 双色 球 PERS | IDHRCRHEN 


双色 球 新 闻 HAF EIT 


开奖 数据 MERE | 开奖 公告 传真 | 出 于 顺序 传真 | 当期 销量 及 中 奖 情况 | 各 期 销量 前 五 名 | 一 等 交 咱 


历史 同期 号 查询 


在 中 奖 信息 表格 上 鼠标 右 击 ， 选 择 弹 出 菜单 中 的 “查看 框架 的 源 代码 ”。 
的 数据 来 源 于 kaijiang.zhcew.com/zhew/html/ssq/list_1..html， 如 图 6-43 所 示 。 


lpadding-"0" cl 


arc 727A BER Gre) o 
<th colspan=" 2 > 中 奖 注 数 </t 
65° rovsparz "2 详细 </th> 


‘th width=" 135" style-"color:fF00")— 8EJE / tl 
<th width="45" style-'color:00F-)— SEE /t1 
tp 


095</t 由 
"padding-left: I0px:” 


en? 12 eso td 
Ente Ye 


ae aS si.) 


det 
images. how. m/shew20l Vaijiang /zhew ssqpd 28. jpe) repest-x;') 
LE 


图 6-43 框架 源 代码 
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发 现 这 个 框架 


然后 再 到 网 页 中 单 击 “ 


下 一 页 ”的 链接 ， 


m 


次 查看 框架 源 代码 ， 新 的 框架 数据 来 源 是 


nn 大 致 明白 URL 的 变化 规律 了 ， 再 回头 测试 一 下 


kaijiang.zhew.com/zhew/html/ssq/list_1.html fé £i il 


L- c 


D kaijiang.zhcw.com/zhcw/html/ssq/list 1.html 


开奖 日 其 期 号 


2018-08-16 


2016-08-14 


2016-08-11 


2016-08-08 


2016-08-07 


2016-08-04 


2016-08-02 


2016-07-31 


2016-07-28 


从 从 从 从 胡同 四 aw 
[os KozKaoKae Kao Kaak 1o METTE 
298,416,216 


TTT 299,992,205 


m^ sum 
POPAAMAAD 200,08 
MMMMAMO s» 
MAMMMMMD nos 


6-44 ”表格 来 源 网 页 


E 常 ， 返 回 数据 正常 ， 如 图 6-44 所 示 。 


再 来 看 看 如 何 获取 表格 中 的 数据 。 任 选 一 个 双色 球 往 期 中 奖 号 码 的 框架 查看 源 代码 ， 这 
里 就 选 末 页 kaijiang.zhcw.com/zhcw/html/ssq/list_100.htm， 如 图 6-45 所 示 。 


[3 view-source:kaijiang.zhcw.com/zhcw/html/ssq/list 100.html 


<tr> 
<td align=" cent er“>2003-04-10</td> 
«td alime" cent er”>2003014¢/td 
<td align="center” style="padding-left: 10px ;” 
<en class=" re">03¢/em> 
<en class=" rr">05/em> 
<en class=" rr^» 0T / en? 
<en class=" rr^ 2 084/en) 
Ken class="rr">21</em> 
《em class=" rr 231 eno 
<en202</em></td> 
<td><st rong?12, 476, 130¢/strong></td> 
<td align="left” style="color:#999:"><strong>0</strong> 
“ted 
<td alime" center") strong clas=“re" 0¢/strong></t® 


"center"? 
:/ /wew. zhcw coM sso/kjgg/" t TIS ^ blank'»«img src-"http 


cent er”>2003-04-06</td> 
align=" cent er“>2003013¢/td> 


645 分析 数 据 


在 做 爬虫 时 ， 遇 到 这 种 表格 形式 的 数据 ， 那 就 最 方便 了 。 因 为 它们 都 有 


以 很 方便 地 获取 数据 。 从 


图 6-45 中 可 以 看 出 ， 表 格 中 每 一 行 的 数据 都 包含 在 


固定 的 标签 ， 可 
一 对 <t> 标 签 
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A. MA, ZEST AE cu ee, Aa SI Pew T o 


6.4.2 项 目 实施 


【示例 6-5】 还 是 打开 Eclipse， 按 照 上 节 创 建 项 目 、 文 件 的 流程 进行 。 首 先 创 建 项 目 
winningNumBS4， 在 项 目 中 创建 PyDev Module 文件 getWinningNum.py， 再 把 上 节 baiduBS4 
项 目 中 使 用 过 的 mylog.py 复制 到 winningNumBS4 项 目 中 ， 以 备 后 期 调用 。 项 目的 主 文件 


getWinningNum.py 的 内 容 如 下 : 


1 #!/usr/bin/evn python3 

2 #=*= coding: utf=8 =*= 

g 200 

4 Created on 2016 年 8 月 7 日 

5 

6 @author: hstking hst_king@hotmail.com 
FEED 

8 

9 

10 import re 

11 from bs4 import BeautifulSoup 

12 import urllib.request 

13 from mylog import MyLog as mylog 
14 import codecs 

15 

16 

17 class DoubleColorBallItem(object): 
18 date - None 

1c) order - None 

20 redl - None 

21 red2 - None 

22 red3 - None 

23 red4 = None 

24 red5 = None 

25 red6 = None 
26 blue - None 
2 money = None 
28 firstPrize - None 
29. secondPrize = None 

30 

31 class GetDoubleColorBallNumber (object): 
32 "这 个 类 用 于 获取 双色 球 中 奖 号 码 ， 返回 一 个 txt 文件 
33 aN 

34 def init (self): 
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35 self.urls = [] 


36 self.log = mylog() 

37 self.getUrls() 

38 self.items - self.spider(self.urls) 

39 self.pipelines (self.items) 

40 

41 

42 def getUrls (self): 

43 " "获取 数据 来 源 网 页 

44 nut 

45 URL = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list 1.html' 

46 htmlContent = self.getResponseContent (URL) 

47 soup = BeautifulSoup(htmlContent, 'lxml') 

48 tag = soup.find all(re.compile('p'))[-11] 

49 pages - tag.strong.get text() 

50 for i in range(1, int(pages)*1): 

51 url = r'http://kaijiang.zhcw.com/zhcw/html/ssq/list_' + str(i) 
TIU tmr" 

52 self.urls.append (url) 

53 self.log.info('¥sil URL:%s 到 URLS \r\n' %url) 

54 

55 def getResponseContent (self, url): 

56 ''' 这 里 单独 使 用 一 个 函数 返回 页 面 返回 值 ， 是 为 了 后 期 方便 的 加 入 proxy 和 
headers 等 

57 LU 

58 try: 

59 response - urllib.request.urlopen (url) 

60 except: 

61 self.log.error('Python 返回 URL:%s 数据 失败 \r\n' $url) 

62 else: 

63 self.log.info('Python 返回 URUL:%s 数据 成 功 \r\n' $url) 

64 return response.read() 

65 

66 

67 def spider(self,urls): 

68 "这 个 函数 的 作用 是 从 获取 的 数据 中 过 滤 得 到 中 奖 信息 

69 ny 

70 items - [] 

zh for url in urls: 

T2 htmlContent = self.getResponseContent (url) 

73 soup = BeautifulSoup(htmlContent, 'lxml') 

74 tags = soup.find_all('tr', attrs={}) 

75 for tag in tags: 
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76 
gio 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 
94 
95 
96 
97 
98 
99 
100 
\r\n' 
101 


if tag.find('em'): 


item = DoubleColorBallItem() 

tagTd = tag.find all('td') 

item.date = tagTd[0].get text() 

item.order = tagTd[1].get text() 

tagEm = tagTd[2].find_all('em') 

item.redl = tagEm[0].get text() 

item.red2 = tagEm[1].get text() 

item.red3 = tagEm[2].get text() 

item.red4 = tagEm[3].get text() 

item.red5 = tagEm[4].get text() 

item.red6 = tagEm[5].get text() 

item.blue - tagEm[6].get text() 

item.money = tagTd[3].find('strong').get text() 
item.firstPrize = tagTd[4].find('strong').get text () 
item.secondPrize = tagTd[5].find('strong').get text() 
items.append (item) 

self.1og.info('" 获 取 日 期 为 :ss 的 数据 成 功 ' $(item.date)) 


return items 


def pipelines (self, items) : 


fileName 


= "ER. txt! 


with codecs.open(fileName, 'w', 'utf-8') as fp: 


for item in items: 


fp.write('$s $s Nt $s $s $s ts $s $s $s \t $s Nt $s bs 


$(item.date,item.order,item.redl,item.red2,item.red3,item.red4,item.red5,item. 


red6,item.blue,item.money,item.firstPrize,item.secondPrize)) 


102 self.1o0g.info(' 将 日 期 为 :%s 的 数据 存 入 "%s"...' %(item.date, 
fileName)) 

103 

104 

105 if name == ' main ': 

106 GDCBN = GetDoubleColorBallNumber () 


鼠标 左 键 选 取 项 目 文件 getWinningNum.py， 然 后 单 击 Eclipse 的 运行 图 标 并 复制 ， 最 终 


得 到 结果 如 
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图 6-46 所 示 。 


8) mylogpy 288,232,376 
A EE UE 
rp EE E moms 
"ees : E 


& 323,658,370 
1B moiveBs4 286,505,018 


GD qidiarBs4 o 7 288,372,472 


Gest 
B3 VinvueTainss 
97 08 13 22 30 32 
el 03 96 16 29 32 
95 10 11 12 20 25 
00 11 12 15 16 20 


© Console 5H ax% 5/56 
«terminated» E:\save\sync\code\crawler\b24Project\winringNumBSé\getWinningNum.py 


图 6-46 运行 getWinningNum.py 


AR MG AY RI ERI REE txt 文件 中 。winningNumBS4 项 目 暂时 告 一 段落 ， 下 一 
节 继 续 挖掘 。 


6.4.3 ”保存 结果 到 Excel 

在 Windows 下 ， 最 常见 的 数据 保存 工具 是 Excel。 下 面 尝 试 将 结果 保存 到 Excel 中 去 。 

在 Python 的 标准 库 中 ， 并 没有 直接 操作 Excel 的 模块 。 好 在 还 有 永远 不 会 让 人 失望 的 第 
三 方 库 。 百 度 一 下 最 流行 的 操作 Excel 的 Python 库 就 是 xlrd 和 xlwt 了 。 其 中 xlrd 负责 从 
Excel 中 读 取 数据 ， 而 xlwt 则 是 将 数据 写 入 到 Excel 中 去 。 这 里 我 们 使 用 xlwt 模块 。 

从 第 三 方 库 中 安装 xlwt 模块 很 简单 ， 一 条 命令 足 矣 。 执 行 命令 : 


pip install xlwt 


执行 结果 如 图 6-47 所 示 。 


画 C\Windows\system32\cmd.exe 
icrosoft Windows (if 6.1-76011 


ALATA <c> 2009 Microsoft Corporation. (PEA A MA. 


s\Users\king>pip install xlut 
llecting xlut 
Down loading xlutei.i.2«py2.pyJenone-any.uhl (99kB) 


1 4UKB 48kB/s eta U:UU:UZ 
1 51kB 48kB/c eta 

! 61kB 57kB/c eta 8 

1 71kB 48kB/s et 

1 81kD 55kBr 

1 92kB 54 


uccessfully installed xlut-1.1.2 


Users \king> 


图 6-47 安装 xlwt 模 块 
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至 此 xlwt 模块 已 安装 完毕 。xlwt 模块 使 用 很 简单 。 


【示例 6-6】 先 写 一 个 简单 的 Python 程序 来 测试 一 下 。 在 Eclipse 中 创建 一 个 test WA, 
并 在 项 目 中 创建 一 个 名 为 excelWrite.py 的 PyDev Module 文件 。excelWrite.py 的 内 容 如 下 : 


#!/usr/bin/evn python3 
#=*= coding: utf-8 -*- 


Created on 2016 年 8 月 17 日 


@author: hstking hst_king@hotmail.com 


© OID 050 M2 


import xlwt 


H H 
k o 


if ^ name | == '_main_': 


n 
N 


book = xlwt.Workbook(encoding-'utf8', style_compression=0) 
sheet = book.add_sheet ('dede') 

sheet.write(0, 0, 'hstking') 

sheet.write(1, 1, ''pxjiX'.encode('utf8')) 

16 book.save('d:NM.xls') 


|o 
[Lm 


很 简单 的 一 个 程序 。 首 先 使 用 xlwt Workbook 函数 创建 一 个 工作 簿 ， 如 果 有 中 文 最 好 是 
输入 中 文 的 字符 编码 。 然 后 在 工作 德里 创建 一 个 表 ， 再 就 是 往 表 里 填 入 数据 了 。 逻 辑 简单 ， 


结构 也 很 简单 。 最 后 就 是 保存 工作 答 到 文件 中 去 。 


单 击 Eclipse 的 运行 图 标 ， 得 到 的 结果 如 图 6-48 所 示 。 
Spe oe 


rE SF OQ Sy UO Quick Access E] as | &) (83 


IE PyDev Package... 5 


= O BigetWinningNum [P mylog CRER — [Ple«elWite G testxs | = O 


mI 
B) exceWritepy 
B inkMysqlpy 
B) myleglog 
B mylog py 
B testals 
È D:\Program Files\python SIE o zm n ex ^ 
4 GB winningNumBS4 


B getWinningNumJog AL x d Lis = 
E) getWinningNum ay A 8 c D E F G H = 
| E) mylog.py A [hsthing T || 
2 "VS 
| B 双色球 txt E 
È DAProgram Flespython | 


6-48 测试 xlwt 模块 


根据 getWinningNum.log 的 实际 情况 〈 也 就 是 程序 输出 数据 的 形式 ) ， 将 excelWrite.py 


稍 做 变化 就 可 以 用 了 。 


E 


到 winningNumBS4 项 上 目下， 创建 一 个 新 的 PyDev Module 文件 


save2excelpy. save2excel.py 和 getWinningNum.py 是 在 同一 目录 下 的 (这 点 很 重要 ， 如 果 不 


在 同一 目录 下 ，getWinningNum.py 想 把 save2excel.py 当 模块 使 用 会 费 很 多 功夫 ) 。 


252 


【示例 6-7] Sava2excel.py 的 内 容 如 下 : 


1 #!/usr/bin/evn python3 
2 #-*- coding: utf-8 —*— 


3 uuu 
4 Created on 2016698991769 
5 
6 @author: hstking hst_king@hotmail.com 
Jou 
8 
9 import xlwt 
10 
11 
12 class SavaBallDate (object): 
13 def init (self, items): 
14 self.items = items 
i5 self.run(self.items) 
16 
I7 def run(self,items): 
18 fileName = ' 双 色 球 .xls' 
19 book = xlwt.Workbook(encoding-'utf8') 
20 sheet=book.add sheet('ball', cell overwrite ok=True) 
21 sheet.write(0, 0, ' 开 奖 日 期 ') 
22 sheet.write(0, 1, ' 期 号 ') 
29 sheet.write(0, 2, '#1') 
24 sheet.write(0, 3, '#2') 
25 sheet.write(0, 4, ' 红 3') 
26 sheet.write(0, 5, ' 红 4') 
AT sheet.write(0, 6, '£[5') 
28 sheet.write(0, 7, '£[6') 
29 sheet.write(0, 8, 'Wi') 
30 sheet.write(0, 9, 'giffáWi') 
31 sheet.write(0, 10, '—4&X') 
32 sheet .write (0，11，' 二 等 奖 ') 
33 i=l 
34 while i <= len(items) : 
35 item = items[i-1] 
36 sheet.write(i, 0, item.date) 
37 sheet.write(i, 1, item.order) 
38 Sheet.write(i, 2, item.redl) 
39 sheet.write(i, 3, item.red2) 
40 sheet.write(i, 4, item.red3) 
41 sheet.write(i, 5, item.red4) 
42 sheet.write(i, 6, item.red5) 
43 sheet.write(i, 7, item.red6) 
44 sheet.write(i, 8, item.blue) 
45 sheet.write(i, 9, item.money) 
46 sheet.write(i, 10, item.firstPrize) 
47 sheet.write(i, 11, item.secondPrize) 
48 i += 1 
49 book. save (fileName) 
50 
51 
52 
53 df _ nape dU main Nr 
54 pass 
【示例 6-8】 将 原来 的 getWinningNum.py 稍 做 修改 ， 修 改 后 的 getWinningNum.py 的 内 容 


如 下 : 
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(0-0 050NH 


#!/usr/bin/evn python3 
#-*= coding: utf-8 -*- 


Created on 2016 年 8 月 7 日 


@author: hstking hst king@hotmail.com 


import re 


from bs4 import BeautifulSoup 


12 import urllib.request 

13 from mylog import MyLog as mylog 

14 from save2excel import SavaBallDate 

15 import codecs 

16 

my 

18 class DoubleColorBallItem (object): 

19 date - None 

20 order - None 

21 redl - None 

22 red2 - None 

23 red3 - None 

24 red4 - None 

25 red5 - None 

26 red6 - None 

27 blue - None 

28 money = None 

29 firstPrize - None 

30 secondPrize - None 

31 

32 class GetDoubleColorBallNumber (object): 

33 "7 这 个 类 用 于 获取 双色 球 中 奖 号 码 ， 返回 一 个 txt 文件 

34 ue 

35 def init (self): 

36 self.urls = [] 

e self.log = mylog() 

38 self.getUrls() 

39 self.items = self.spider(self.urls) 

40 self.pipelines(self.items) 

41 self.log.info('beging save data to excel \r\n') 

42 SavaBallDate (self.items) 

43 self.log.info('save data to excel end ...\r\n') 

44 

45 

46 def getUrls (self): 

47 T "获取 数据 来 源 网 页 

48 ver 

49 URL = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list 1.html' 

50 htmlContent = self.getResponseContent (URL) 

51 soup = BeautifulSoup(htmlContent, 'lxml') 

52 tag = soup.find all(re.compile('p')) [-1] 

53 pages = tag.strong.get text() 

54 for i in range(1, int(pages)+1): 

55 url = r'http://kaijiang.zhcw.com/zhcw/html/ssq/list ' + str(i) 
F hemi © 

56 self.urls.append (url) 

57 self.log.info('iRJH URL:$s 到 URLS \r\n' url) 

58 

59 def getResponseContent (self, url): 

60 "这 里 单独 使 用 一 个 函数 返回 页 面 返回 值 ， 是 为 了 后 期 方便 的 加 入 proxy 和 
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headers 等 


61 ver 
62 try: 
63 response = urllib.request.urlopen (url) 
64 except: 
65 self.log.error('Python 返回 URL:%s 数据 失败 \r\n' $url) 
66 else: 
67 self.log.info('Python 返回 URUL:%s 数据 成 功 \r\n' gurl) 
68 return response.read() 
69 
70 
T def spider(self,urls): 
72 * 1 "这 个 函数 的 作用 是 从 获取 的 数据 中 过 滤 得 到 中 奖 信息 
73 ver 
74 items = [] 
15 for url in urls: 
76 htmlContent = self.getResponseContent (url) 
77 soup = BeautifulSoup(htmlContent, 'lxml') 
78 tags = soup.find all('tr', attrs={}) 
79 for tag in tags: 
80 if tag.find('em'): 
81 item - DoubleColorBallItem() 
82 tagTd = tag.find all('td') 
83 item.date = tagTd[0].get text() 
84 item.order = tagTd[1].get text() 
85 tagEm = tagTd[2].find all('em') 
86 item.redl = tagEm[0].get text() 
87 item.red2 = tagEm[1].get text() 
88 item.red3 = tagEm[2].get text() 
89 item.red4 = tagEm[3].get text() 
90 item.red5 = tagEm[4].get text() 
91 item.red6 = tagEm[5].get text() 
92 item.blue = tagEm[6].get text() 
93 item.money = tagTd[3].find('strong').get text() 
94 item.firstPrize = tagTd[4].find('strong').get text() 
95 item.secondPrize = tagTd[5].find('strong').get text() 
96 items.append (item) 
97 self.1og.info(" 获 取 日 期 为 :ss 的 数据 成 功 ' %(item.date)) 
98 return items 
99 
100 def pipelines (self, items) : 
101 fileName = ' 双 色 球 .txt' 
102 with codecs.open(fileName, 'w', 'utf-8') as fp: 
103 for item in items: 
104 fp.write('$s $s Nt $s $s %s $s $s $s $s \t $s Nt $s %s 
KENEN 
105 


$(item.date,item.order,item.redl,item.red2,item.red3,item.red4,item.red5,item. 
red6,item.blue,item.money,item.firstPrize,item.secondPrize)) 


106 self.1og.info(' 将 日 期 为 :ss 的 数据 存 入 "ss"...' $(item.date, 
fileName) ) 

107 

108 

109 if name == ' main ': 

110 GDCBN = GetDoubleColorBallNumber () 


实际 上 就 是 导入 了 save2excel 模块 后 再 在 _init 函数 中 添加 了 3 17, ik save2excel 处 理 
了 一 下 扑 取 的 数据 而 已 。 
单 击 Eclipse 


I 


标 ， 最 终 得 到 的 结果 如 图 6-49 所 示 。 
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0|2003 02 .2:2003001 "10 
41 2003.0227200991 "i 
32 2003.0.272003991 

CREER 
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图 6-49 保存 结果 到 Excel 
至 此 ，winningNumBS4 项 目 已 全 部 完成 。 这 里 要 注意 的 是 ， 不 要 频繁 地 跑 这 个 怜 虫 ， 在 
一 定 的 时 间 内 多 次 仆 取 会 引起 网 站 反 息 忠 人 员 的 注意 。 得 到 数据 就 够 了 ， 没 必要 耗费 网 站 的 
网 络 资源 。 


6.4.4 ”代码 分 析 


winningNumBS4 项 目 中 只 有 3 个 Python 文件 ， 分 别 是 getWinningNum.py、save2excel.py 
和 mylog.py。 其 中 mylog.py 和 上 个 项 目 中 的 mylog.py 是 一 样 的 (实际 上 所 有 的 项 目 中 使 用 
的 都 是 同一 个 mylog.py) ， 这 个 可 以 略 过 。 主 要 是 看 主 文件 getWinningNum.py 和 
save2excel.py o 

先 看 getWinningNum.py 文件 。 第 10-15 行 是 导入 程序 所 需 的 模块 ， 其 中 包含 了 Python 
标准 模块 和 自 定义 模块 。 顺 便 演示 了 导入 模块 的 几 种 方式 。 

第 18~30 行 定义 了 一 个 类 。 这 个 类 包含 了 获取 数据 的 所 有 项 。 这 种 写法 借鉴 了 Scrapy 的 
items 的 写法 。 第 32-106 行 定义 的 模块 负责 获取 数据 和 保存 数据 。 其 中 35~43 行 是 类 的 解析 
函数 (Python 是 没有 解析 函数 这 个 概念 的 ， 但 _init 函数 所 起 的 作用 基本 上 就 是 解析 函数 
T) 。 当 类 实例 化 时 就 自动 运行 _init 函数。 

第 46-57 行 的 getUrls 函数 作用 是 从 网 站 中 获取 所 有 需要 疏 取 的 网 页 的 URL， 然 后 将 这 
些 url 加 入 到 urls 列表 中 去 ， 以 备 后 面 的 函数 调用 。 第 59~68 行 getResponseConent 函数 作用 
是 从 一 个 url 中 获取 数据 。 这 个 函数 可 以 用 一 句 话 代替 ， 之 所 以 写成 函数 是 为 了 加 入 headers 
和 proxy 更 加 方便 。 

第 71-98 TARA RRS, RRM BREE) items 列表 中 供 后 面 的 函数 
调用 。 第 100-106 íF pipelines 函数 将 items 列表 中 的 数据 写 入 txt 文件 中 。 那 么 将 数据 写 入 
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Excel 是 哪个 函数 呢 ? 是 在 第 42 fT. Minit 函数 中 调用 了 save2excel 模块 中 的 
SaveBallDate 函数 。 

最 后 的 第 109~110 行 是 主 函 数 ， 它 将 实例 化 GetDoubleColorBallNumber 类 。 使 
GetDoubleColorBallNumber 类 的 _init 函数 自动 运行 。 

至 于 save2excel.py 就 比较 简单 了 。 第 9 行 导 入 了 xlwt 模块 。 第 13~14 行 初 始 化 了 类 变 
量 ， 调 用 类 函数 。 第 17-49 行 就 是 很 简单 地 遍历 items 列表 ， 然 后 将 列表 中 的 数据 保存 到 
Excel 中 去 。 


bs4 REFRE : 获取 起 点 小 说 信息 


现在 娱乐 消费 好 贵 。 最 便宜 最 方便 的 娱乐 消费 莫 过 于 在 网 上 看 小 说 了 【网游 还 需要 充 
值 ， 看 电影 一 次 至 少 两 小 时 ) ， 看 小 说 就 绕 不 开 原创 中 文 小 说 网 站 一 一 起 点 中 文 。 笔 者 看 小 
说 不 喜欢 那 种 看 一 章 等 一 章 的 看 法 ， 说 不 定 一 不 小 心 小 说 就 无 限期 的 断 更 了 ， 还 是 直接 看 那 
些 完 本 小 说 比较 爽快 。 本 节 将 使 用 bs4 疏 虫 获取 起 点 中 文 网 所 有 的 完 本 小 说 信息 ， 并 将 其 保 
存 到 MySQL 中 去 。 


6.5.1 目标 分 析 
打开 起 点 中 文 网 ， 搜 索 所 有 的 完 本 小 说 。 在 浏览 器 中 打开 网 页 https://www.qidian.com, 
鼠标 单 击 上 方 栏目 的 全 部 作品 ， 然 后 再 将 左 侧 的 状态 修改 为 完 本 ， 如 图 6-50 所 示 。 


D aera wera x ， 国 veewcehassyn X 


€ > [s e [pttes/wwaidiancom/aiza 


起 点 中 文 网 
me TR 


650 选择 小 说 类 型 
看 看 当前 网 页 的 网 址 是 https:/www.qidian.comy/all?action=l&orderId=&page=l&style= 
1&pageSize= 20&siteid=1&pubflag=0&hiddenField=0。 找 到 下 一 页 的 链接 ， 鼠 标 单 击 该 链接 进 
入 下 一 页 。 这 一 页 的 网 址 是 https://www.qidian.com/all?action-1&orderId-&style- l &pageSize 
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=20&siteid=1&pubflag=0&hiddenField=0&page=2。 把 最 后 一 个 参数 page-2 修改 为 page=1 illl 
斌 一下。 发现 页 面 https//www.qidian.com/all?action-1 &orderld-&style-1 &pageSize=20&siteid 
=1&pubflag=0&hiddenField=0&page=1 的 内 容 和 页 面 https://www. qidian. com/all?action=1& 
orderld= &page=1&style=1&pageSize=20&siteid=1 &pubflag-O&hiddenField-O 的 内 容 是 一 样 
的 。 现 在 需要 扑 的 页 面 命名 规则 已 经 有 了 ， 只 需要 修改 最 后 那个 page 的 参数 就 可 以 了 。 


总 共 需 要 疏 取 多 少 页 呢 ? 查看 页 面 下 方 的 页 面 选 择 位 置 ， 共 有 2292 页 


穿越 者 俱乐部 


JS NWA SAI SR FANHA MANB ALNE E 
作家 助手 。 起 点 国际 版 
] 帮助 中 心 du Heig Stò 


图 6-51 总 页 数 
选择 弹出 菜单 中 的 “查看 网 页 源 代码 ”， 


在 网 页 的 任意 空白 处 右 击 ， 
分 ， 如 图 6-52 所 示 。 


Cc ae 


rpt i6 oe 


6-52 页面 源码 
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， 如 图 6-51 所 示 。 


找到 表格 的 开头 部 


在 页 面 源码 中 发 现 ， 全 本 小 说 标签 都 是 以 <li data-rid=”**> 开 头 的 。 找 到 规律 后 就 好 办 
了 ,直接 按照 这 个 规律 构建 过 滤 规则 就 可 以 了 。 


6.5.2 ”项 目 实施 

打开 Eclipse， 创 建 项 目 qidianBS4， 在 项 目 中 创建 PyDev Module 文件 
completeBook.py。 把 上 节 winningNumBS4 项 目 中 使 用 过 的 mylog.py 复制 到 qidianBS4 mA 
中 ， 以 备 后 期 调用 。 


【示例 6-9】 项 目的 主 文件 completeBook.py 的 内 容 如 下 : 


#!/usr/bin/evn python3 
#=*= coding; utf=8 =*= 


Created on 2016 年 8 月 11 日 


@author: hstking hstking@hotmail.com 
ver 


© 0-100 BF WNHRH 


from bs4 import BeautifulSoup 


m 
o 


import urllib.request 


m 
m 


import re 


12 import codecs 

13 import time 

14 from mylog import MyLog as mylog 
15 from save2mysql import SavebooksData 
16 

17 

18 class BookItem(object): 

19 categoryName = None 

20 middleUrl = None 

21 bookName = None 

22 wordsNum = None 

23 updateTime = None 

24 authorName = None 

25 

26 

27 class GetBookName (object): 

28 def init (self): 

29 self.urlBase = 


'"https://www.qgidian.com/all?action-1&orderId-&style-1l&pageSize-20&siteid-1&pub 
flag-0&hiddenField-0&page-1" 

30 self.log - mylog() 

31 self.pages = self.getPages(self.urlBase) 
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32 self.booksList = [] 


33 # self.spider(self.urlBase，5) 

34 self.spider(self.urlBase, self.pages) 

35 self.pipelines (self.booksList) 

36 self.log.info('begin save data to mysql\r\n') 

37 SavebooksData (self.booksList) 

38 self.log.info('save data to mysql end ...\r\n') 

39 

40 

41 def getPages(self,url): 

42 E3600 Itn 

43 htmlContent = self.getResponseContent (url) 

44 pattern = re.compile('data-pageMax=".*?"') 

45 pageStr = pattern.search (htmlContent) .group() 

46 pageMax = pageStr.split('"')[1] 

47 print("pageMax - $s" $pageMax) 

48 return int (pageMax) 

49 

50 

51 def getResponseContent (self, url): 

52 try: 

53 response - urllib.request.urlopen(url, timeout-3) 

54 except: 

55 self.log.error('Python 返回 URL:%s 数据 失败 ' url) 

56 return None 

S else: 

58 self.log.info('Python 返回 URU:%s 数据 成 功 ' $url) 

59 return response.read().decode('utf-8') 

60 

61 

62 def spider(self, url, pages): 

63 urlList - url.split('-') 

64 for i in range(1, pages + 1): 

65 urlList[-1] = str(i) 

66 newUrl = '-'.join(urlList) 

67 htmlContent - self.getResponseContent (newUrl) 

68 if not htmlContent: 

69 self .mylog .error(' 未 获取 到 页 面 内 容 ') 

70 continue 

a soup = BeautifulSoup(htmlContent, 'lxml') 

72 tags = soup.find_all('li', attrs={'data-rid': 
re.compile('\d{1,2}")}) 

73 for tag in tags: 
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74 item = BookItem() 
75 item.categoryName = tag.find('a', attrs={'class': 'go-sub- 
type'}) .get_text () 


76 item.middleUrl = tag.find('h4').a.get('href') 

ET item.bookName = tag.find('h4').a.get text() 

78 item.wordsNum - tag.find('p', 
attrs-('class':'update']).span.get text() 

79 item.updateTime - None 

80 item.authorName - tag.find('a', 


attrs-('class':'name']).get text() 


81 self.booksList.append (item) 

82 self.1og.info(' 获 取 书 名 为 <<%s>> 的 数据 成 功 ' Sitem.bookName) 

83 

84 

85 def pipelines (self,bookList): 

86 bookName = ' 起 点 完 本 小 说 .txt' 

87 nowTime = time.strftime('$Y-$m-$d %H:%M:%S\r\n', time.localtime()) 

88 with codecs.open(bookName, 'w', 'utf8') as fp: 

89 fp.write('run time: $s' %nowTime) 

90 for item in self.booksList: 

91 fp.write('$s Nt $s \t\t $s \t $s \t $s \r\n' 

92 $(item.categoryName, item.bookName, item.wordsNum, 
item.updateTime, item.authorName)) 

93 self.1og.info(' 将 书 名 为 <<ss>> 的 数据 存 入 "ss". .." 
$(item.bookName, bookName) ) 

94 

95 if name == ' main ': 


96 GBN = GetBookName () 
主 程序 部 分 已 经 完成 了 。 


6.5.3 ”保存 结果 到 MySQL 


因为 最 后 还 需要 将 结果 保存 到 MySQL 中 去 ， 所 以 还 得 添加 一 个 自 定义 的 模块 (也 就 是 
一 个 自 建 Python 程序 ) 。 

【示例 6-10] Æ qidianBS4 项 目下 ，completeBook.py 的 同 级 目录 中 创建 一 个 PyDev 
Module 文件 save2mysql.py。save2mysql.py 的 内 容 如 下 : 


1 #!/usr/bin/evn python3 

2 #-*= coding: utf-8 -*- 

3 5 

4 Created on 2016008001700 
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5 

6 @author: hstking hst_king@hotmail.com 
Jue 
8 
9 


import pymysql 


10 

11 class SavebooksData (object): 

12 def _init (self,items): 

13 self.host = '192.168.1.80' 

14 self.port = 3306 

15 self.user = 'crawlUSER' 

16 self.passwd = 'crawll23' 

alg) self.db = 'bs4DB' 

18 

19 self.run(items) 

20 

21 def run(self, items): 

22 conn = pymysql.connect (host=self.host, 
23 port=self.port, 

24 user=self.user, 

25 passwd=self.passwd, 
26 db=self.db) 

2 cur - conn.cursor() 

28 for item in items: 

29 cur.execute("INSERT INTO qiDianBooks (categoryName, bookName, 


wordsNum, updateTime, authorName) values($s, $s, $s, $s, $s)", 
(item.categoryName, item.bookName, item.wordsNum, item.updateTime, 
item.authorName) ) 


30 cur.close() 

31 conn.commit () 

32 conn.close() 

33 

34 

35 if _ name == ' main ': 
36 pass 


至 此 ， 该 项 目 中 的 所 有 代码 已 经 完成 了 。 因 为 要 将 数据 保存 到 远程 MySQL 服务 器 ， 首 
先 得 在 MySQL 服务 器 上 创建 好 数据 库 和 表 。 在 第 5 章 Scrapy 项 目 中 就 创建 过 一 个 MySQL 
服务 器 ， 并 分 别 在 Windows 和 Linux 系统 上 安装 了 Python 中 支持 MySQL 的 模块 
Pymysql3。 这 里 就 直接 使 用 现成 的 MySQL 服务 器 就 可 以 了 。 与 Scrapy 项 目 不 同 的 是 ， 本 节 
存储 数据 到 MySQL 服务 器 是 远程 存储 ，Scrapy 项 目的 存储 是 本 地 存储 。 本 机 与 MySQL 服 
务 器 的 关系 如 图 6-53 所 示 。 
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Linux 


1P:192.168.2.99 1P:192.168.2.80 


PC 


Linux MySQL Server 


图 6-53 网 络 关系 图 


使 用 Putty 登录 到 Linux。 进 入 MySQL 为 bs4 项 目 创建 一 个 数据 库 ， 并 为 qidianBS4 项 


目 创建 一 个 表 。 


在 Linux 系统 下 登录 到 MySQL 后 ， 执 行 命令 : 


CREATE DATABASE bs4DB CHARACTER SET 'utf8' COLLATE 'utf8 general Ci'; 


use bs4DB; 


CREATE TABLE qiDianBooks ( 
-> id INT AUTO_INCREMENT, 
-> categoryName char(20), 
-> bookName char (20), 
-> wordsNum char(10), 
-> authorName char (20), 
-> PRIMARY KEY(id) )ENGINE=InnoDB DEFAULT CHARSET=utf8; 


创建 一 个 名 为 bs4DB 的 数据 库 ， 并 在 数据 库 中 建立 一 个 qiDianBooks 的 表 ， 所 有 编码 都 


使 用 utf8 编码 ， 执 行 结果 如 


图 6-54 所 示 。 


Copyright (c) 2000, 2016, Oracle and/or its affiliates. All rights reserved. 


Oracle is a registered trademark of Oracle Corporation and/or its 


affiliates. Other 
owners. 


;' or '\h' for help. Type 'Ac' to clear the current input statement. 


names may be trademarks of their respective 


bookName char (20), 
|wordsNum char (10), 


authorName 


char (20), 


6-54 ”创建 数据 库 和 表 
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随后 为 登录 用 户 分 配 权限 ， 执 行 命令 : 


GRANT all privileges ON bs4DB.* to crawlUSER@all IDENTIFIED BY 'crawl123'; 

GRANT all privileges ON bs4DB.* to crawlUSER@localhost IDENTIFIED BY 
"crawl123'; 

GRANT all privileges ON bs4DB.* to crawlUSER@192.168.2.99 IDENTIFIED BY 
"crawl123'; 


执行 结果 如 图 6-55 所 示 。 


mysql> GRANT all privileges ON bs4DB.* co crawlUSERGall IDENTIFIED BY 'crawl123' 
— OK, 0 rows affected (0.00 sec) 
mysql> GRANT all privileges ON bs4DB.* to crawlUSER@localhost IDENTIFIED BY 'cra 
Query OK, 0 rows affected (0.00 sec) 


[mysql» GRANT all privileges ON bs4DB.* to crawlUSER@192.168.2.99 IDENTIFIED BY ' 


Query OK, 0 rows affected (0.00 sec) 


FA 6-55 MySQL 用 户 权限 


这 三 条 命令 的 作用 分 别 是 : 允许 crawlUSER 用 户 远程 登录 ， 人 允许 crawlUSER 用 户 本 地 


登录 ， 人 允许 crawlUSER 从 192.168.2.99 这 个 IP 登录 。 
这 里 需要 说 明 的 是 ，crawlUSER 这 个 用 户 在 Scrapy 项 目 中 已 经 创建 过 了 ， 如 果 没 有 创 
这 个 用 户 ， 则 需要 在 MySQL 中 执行 命令 : 
INSERT INTO mysql.user(Host,User,Password) 
VALUES ("%", "crawlUSER",password("crawl123")); 
INSERT INTO mysql.user(Host,User,Password) 
VALUES ("localhost", "crawlUSER", password ("crawll23")); 


MySQL 服务 器 已 经 准备 好 了 ， 可 以 运行 程序 了 。 单 击 Eclipse 图 标 栏 上 的 运行 图 标 ， 
行 该 项 目 ， 得 到 的 结果 如 图 6-56 所 示 。 


| File Edit Navigate Search Project Pydev Run Window Help 


ely ey Or Bris ei wis iP) + ile tor 
I$ PyDev Package.. 52 = © F) completeBook B 起 点 完 本 小 说 txt X Vm 
e 种 = lrun time: 2016-08-17 20:16:16 
4 qb qidianBSA - 2[mem/mezsaz] Se aza 1292425 16-08-17 18:35 same | 
qn 3 [se4/z anza] Esse 3305823 16-08-17 18:00 Eod 
E] completeBooklog i[suKime/mzesnz]  s-muemssiazzee 97083 16-08-17 15:20 E 
[B] completeBook.py s[ems/mutem ] qumuecermgue 2066407 16-08-17 14:22 Li 
B my G[sex/amswaz] xuxae 773861 16-08-17 13:19 
E my'og.py 7[zts/aseztu] aan 218772 16-08-17 09:54 sagans 
回 save2mysql.py S(une/semees)] maex (men) 1070333 16-08-17 03:10 anra 
Ej 起 点 完 本 小 说 xt 9 [see/senees)] seusaesleny= 1159573 16-08-16 23:11 "R i 
FT io[ssw/mzsesu] azanza 645131 16-08-16 22:01 mexalm 
TOU 11 [ene /stizeee] maenilessas asrPESeSeTI 142200 16-8 
D baiduBs4 2[ues/umemse] sribuazusrse 1208686 16-08-17 10:03 mis 
D helloPython [zesm/ueezSe] s+ reme | 5e1ses 16-08-17 09:51 axxeEe 
1 mamas (a an) 1297156 1&6.08.1& 16:26 = 


6-56 run completeBook.py 
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建 


执 


保存 到 本 地 的 文件 内 容 有 乱码 ， 是 不 是 ? 没关系， 用 Windows 自 带 的 记事 本 打开 就 没有 
了 ， 只 是 编码 问题 。 再 来 看 看 保存 到 远程 的 MySQL。 使 用 pyty 登录 到 Linux， 连 接 到 
MySQL 服务 器 后 ， 在 MySQL 里 执行 命令 : 


use bs4DB; 
select * from qiDianBooks; 


执行 的 结果 如 图 6-57 所 示 。 


8572 | 16-06-28 14:28 | yangch... 
[武侠 /传统 武侠 ] 1 Ket 

| 6519 1 16-06-28 14:28 | EPR 
【玄幻 /东方 玄幻 ] 1 

1 88016 | 16-07-12 13:56 | RAR 
[都 市 /都 市 生活 ] 1 婚纱 
| 7320 | 16-06-28 14:28 | 晚秋 .QD 
[都 市 /青春 校园 ] 1 穿 红 内 裤 的 男 老师 


1 5398 1 16-06-28 14:28 | 柳 三 变 1 
[武侠 /武侠 幻想 ] 1 华山 论 

1 792 | 16-08-03 17:56 | 枫 枞 之 心 
[职场 /娱乐 明星 ] 1 i 


| 1799849 | 16-07-18 15:31 | SEHA 
[武侠 /武侠 幻想 ] 1 桃花 

| 2045 | 16-06-28 14:28 | 4% 
【科幻 /未 来 世界 ] | BARR 
| 19017 | 16-06-28 14:28 | 龙 神 将 .QD 
[科幻 /未 来 世界 ] 1 风 〈 新 的 故事 ) 
| 43686 | 16-06-28 14:28 | 龙 神 将 .QD 


12396 rows in set (0.06 sec) 


Inysqi» J 
FA 6-57 MySQL 保存 结果 


保存 的 结果 是 12396 条 ， 而 网 站 上 显示 所 有 的 全 本 小 说 是 14380 本 ， 大 约 有 2000 本 小 说 
没有 被 录 上 。 稍 微 修改 一 下 程序 ， 可 以 从 log 中 得 到 哪些 小 说 没有 被 怜 取 。 笔 者 大 致 检查 了 
一 下 ， 有 一 些小 说 记录 的 标签 与 笔者 设置 的 标签 不 太一 样 ， 如 果 需 要 读 取 完 整 的 列表 请 读者 
自行 修改 一 下 。 另 外 ， 这 个 程序 的 瑕 症 在 于 MySQL 保存 数据 时 使 用 的 都 是 char 类 型 ， 如 果 
要 追求 完美 ， 可 以 将 日 期 改 成 Date 类 型 ， 将 字数 改 成 int 类 型 等 。 


6.5.4 ”代码 分 析 

项 目 qidianBS4 中 有 3 个 Python 程序 ， 其 中 mylog.py 无 须 再 解释 了 ， 这 里 需要 分 析 的 只 
有 completeBook.py 和 save2mysql.py。 

completeBook.py 中 第 9-15 行 是 导入 需要 的 模块 。 第 18~24 行 是 仿照 Scrapy 建立 的 一 个 
item 类 。 第 27~93 行 是 自 定义 类 GetBookName， 用 于 从 起 点 中 文 网 站 获取 全 本 小 说 的 信息 。 

第 27~38 行 是 GetBookName 类 的 “解析 函数 ”。 第 33 行 调用 了 spider 类 函数 将 所 有 的 
数据 保存 到 类 变量 selfbooksList 列表 中 。 第 34 和 36 行 分 别 调用 了 selfpipelines 函数 和 
SavebookData 函数 ， 将 所 怜 取 的 数据 保存 到 txt 文件 和 MySQL 远程 服务 器 中 。 

第 41-48 行 是 从 网 站 起 始 页 面 中 获取 了 总 共 的 页 数 。 因 为 这 个 总 页 数 并 不 是 单独 包含 在 
某 个 标签 内 的 ， 所 以 这 里 使 用 re 模块 将 这 个 页 数 过 滤 出 来 。 


265 


第 51—59 行 的 getResponseContent 函数 还 是 用 于 返回 从 URL 中 得 到 的 原始 数据 。 

第 62~82 行 的 spider 函数 使 用 bs4 模块 从 原始 数据 中 过 滤 出 所 需要 的 数据 ， 然 后 将 数据 
保存 到 了 self.booksList 列表 中 去 。 

第 85~93 行 的 pipelines 函数 将 self.bookList 列表 中 的 数据 保存 到 txt 文件 。 

第 95~96 行 是 _main_ 程序， 只 有 一 条 命令 ， 作 用 是 实例 化 GetBookName 类 。 


6.6  bs4 ERREN : 获取 电影 信息 


这 一 节 的 内 容 还 是 跟 娱 乐 有 关 ， 从 网 络 上 获取 电影 。 影 视 网 站 会 每 天 都 有 新 的 电影 上 
架 ， 限 于 页 面 的 篇 幅 ， 每 页 显示 的 电影 有 限 。 如 果 想 找 一 部 心仪 的 电影 丽 怕 得 翻 遍 整个 网 
站 ， 当 然 也 可 以 使 用 百度 的 高 级 搜索 和 网 站 自身 的 搜索 ， 但 最 方便 的 还 是 自己 写 个 仆 虫 ， 每 
天 让 它 息 一 次 ， 就 可 以 知道 有 什么 新 电影 上 架 了 。 


6.6.1 目标 分 析 


这 次 疏 虫 的 目标 网 站 是 http:/dianying.2345.com/， 怜 虫 的 搜索 目标 仅 限于 今年 的 电影 。 
在 网 站 打开 搜索 ， 在 年 代 中 选择 2016， 得 到 的 结果 如 图 6-58 所 示 。 


[e> ef dianying.2345.com/list/----2015--html 
22H SRM AA 电 里 OMA 动漫 SS 明显 vier 美女 秀 场 更 多 
x2: EE s5 c^ se 战争 科幻 
ma i cs WE we 59 运动 ”农村 JE We 
付费 电影 
yi te: EE se sa es sm ar 
Q mE 车 南亚 地 区 。 欧美 地 区 =e 
[m 电视 剧 FR: 238 INDE 2015 2014 2013 2012 2011 2010-2000 soft feol 
Be ss Eg est mee osk 
esz 
明星 库 
Q 全 部 明 时 
Q SEE 
Q zm 
猜 您 感 兴 地 ES : 原来 你 还 在 SHE 


图 6-58 Ehi 

从 图 片上 看 ， 这 个 站 点 和 上 节 的 起 点 找 书 没什么 区 别 啊 ? He, WR ES. RT 

JR HC f 9 EE TAS ASR, eB AE ME AK. AEF, df] 
EF RAM, KSA ASCE, ARSENE. 
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在 页 面 的 下 方 单 击 “ 下 一 页 ”， 发 现 URL 变 成 了 http://dianying.2345.com/list/----201 6--- 
2.html。 测 试 一 下 http://dianying.2345.com/list/----2016---1.html， 可 以 正常 返回 ，urls 的 变化 规 
律 找到 了 。 再 看 看 总 共有 多 少 页 呢 ? 如 图 6-59 所 示 。 


Jr: L aa = E: 


自杀 小 队 ( XEM ) 


图 6-59 总 页 数 


总 页 数 也 找到 了 ， 最 后 只 需要 找到 爬虫 的 过 滤 规 则 就 可 以 了 。 单 击 页 面 空 白 处 ， 在 弹出 
菜单 中 选择 “查看 网 页 源 代码 ”选项 ， 查 看 页 面 源 代码 ， 如 图 6-60 所 示 。 


161388” 
pic" onmouseover="this. classe: pic picHover';" ormouseout="this, classNane=’ pic' ;“> 


loaderc-"http://ingwrb. 2345. can/dypcing/ing/a/S4/s1 61388. pe 

onerror=" javascript :this. sro=" http: // ingwx3. 2345. con/ dypcimg/ images/default_ing110. jpg’ ;" alt=" 疯狂 动物 城 国语 版 "> 
iStylelcon iStyleFF*></i ‘span class="pRightBotton’ ><en)9. 84} </en></span> 

aPlayBtri E http://dianying.2545. con/detail/161388, html" target="_blank” title=" mJEzhd tet 


e=" 疯狂 动物 城 国语 版 ”targ 
NLUIILDEICLII ;</a 
ER: <ew<a href-^http://dianying.2345. con/mingxing/22403/" title=" SIR - 古 德 温 电 影 ”1 4 


blank" href="http://dianying. 2345. con/det ai 1/ 161388. ht} 
ajax83e"ys dy. sparò 
252 <span c 


ajax82"ys_dy_List_actor_161388° SRR - AINA /a/emdAnbsp: AW - NE span》 
253 Vp 


his. className-'pic picHover';" ormouseout="this, className=’ pic’ ;“> 
5" src=", % 


onerror=" javascript this. src=’ http: //ingwxd. 2346. co dypcing/inages/def ault_ing110. jpg :”alt=* 致 青春 原来 你 还 在 这 里 "> 
5 


257 i class-'iStyleIcon iStyleFF*></i ‘span class-'pRightBottom ><en: /en></span> 

258 <a clas: ittp: //dianying. 2345. con/detail/168580. html” target="_blank" title" REER 
ajax83-"ys dy list pic 1685807) /a 

259 /div; 

260 <span cla: : 还 在 这 里 ”target=”_blark”href=*http;//diarying, 2345. con/det ai l/ 16869 
ajaxB3-"ys dy l FE OBIE GENE 8230 / 25 / spare 

261 <span c wtpi//dianying. 248. com/List/—wiyitar—.htal” titled DELTA 
ajax83- ys dy list. < hinbsp; ex) Ca href="http://di anyirg. 2346. con/list/-—liuyifei—. "t 

“blank” data-ajsk83- ys dy list actor 168580" TULIP / en></spand 
62 


图 6-60 页 面 源 代码 


直接 找 <l 记 标签 就 可 以 了 。 先 找 <ul> 标 签 ， 然 后 再 嵌 套 查找 <li> 标 签 也 行 ， 更 加 精确 。 现 
在 息 虫 所 有 的 要 素 都 已 经 完备 了 ， 可 以 构造 仆 虫 了 。 


6.6.2 项目 实施 

在 Eclipse 中 创建 新 项 目 movieBS4， 然 后 在 项 目 中 创建 新 的 PyDev Module 文件 
get2016movie.py， 再 将 上 面 几 节 都 用 到 过 的 mylog.py 复制 到 movieBS4 项 目下 。mylog.py 还 
是 直接 略 过 ， 主 要 是 get2016movie.py。 


【示例 6-11] get2016movie.py 的 内 容 如 下 
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#!/usr/bin/evn python3 
#-*- coding: utf-8 -*- 


Created on 2016698991369 


@author: hstking hst_king@hotmail.com 


© 0-006050 MNnH2 


from bs4 import BeautifulSoup 


m 
o 


import urllib.request 


ren 
= 


import codecs 


m 
N 


from mylog import MyLog as mylog 


re 
[m 


import sys 


14 import re 

15 

16 class MovieItem (object): 

17 movieName = None 

18 movieScore = None 

19 movieStarring = None 

20 

21 class GetMovie (object): 

22 # "" "获取 电影 信息 trn 

23 def init (self): 

24 self.urlBase = 'http://dianying.2345.com/list/----2016---1.html' 
25 self.log - mylog() 

26 self.pages - self.getPages() 

27 self.urls = [] #url jh 

28 self.items = [] 

29 self.getUrls(self.pages) # 获 取 抓 取 页 面 的 url 

30 self.spider(self.urls) 

31 self.pipelines (self.items) 

32 

33 def getPages (self): 

34 "RATA Itt 

35 self .10g.info(' 开 始 获取 页 数 ') 

36 htmlContent = self.getResponseContent (self.urlBase) 
37 soup = BeautifulSoup(htmlContent, 'lxml') 

38 tag = soup.find('div', attrs={'class':'v_page'}) 

39 subTags = tag.find all('a', attrs={'target': ' self']) 
40 self.1og.info(" 获 取 页 数 成 功 ') 

41 return int(subTags[-2].get text()) 

42 

43 def getResponseContent (self, url): 
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44 "" "获取 页 面 返回 的 数据 NN 


45 fakeHeaders- {'User-Agent':'Mozilla/5.0 (Windows NT 6.2; rv:16.0) 
Gecko/20100101 Firefox/16.0'] 

46 request = urllib.request.Request (url, headers-fakeHeaders) 

47 try: 

48 response - urllib.request.urlopen (request) 

49 except: 

50 self.log.error('Python 返回 URL:%s 数据 失败 ' url) 

51 return None 

52 else: 

53 self.log.info('Python 返回 URUL:%s 数据 成 功 ' $url) 

54 return response.read().decode('GBK') 

55 

56 def getUrls(self, pages): 

57 urlHead = 'http://dianying.2345.com/list/----2016---' 

58 urlEnd - '.html' 

59 for i in range(l,pages * 1): 

60 url = urlHead + str(i) + urlEnd 

61 self.urls.append (url) 

62 self.10g.info(' 添 加 URL:%s HJ URLS 列表 ' url) 

63 

64 def spider(self, urls): 

65 for url in urls: 

66 htmlContent = self.getResponseContent (url) 

67 soup = BeautifulSoup(htmlContent, 'lxml') 

68 anchorTag = soup.find('ul', attrs={'class':'v_picTxt 
pic180 240 clearfix'}) 

69 tags = anchorTag.find all('li', attrs={'media': 
re.compile('\d{5}")}) 

70 for tag in tags: 

TA item = MovieItem() 

72 item.movieName = tag.find('span', 
attrs={'class':'sTit'}) .get_text() 

73 item.movieScore = tag.find('span', 


attrs=({'class':'pRightBottom'}) .em.get_text().replace('4p', '') 


74 item.movieStarring = tag.find('span', 
attrs=('class':'sDes'}) .get_text() .replace(' 主 演 : ', '') 

75, self.items.append (item) 

76 self.1o0g.info(' 获 取 电 影 名 为 : <<%s>> 成 功 ' $(item.movieName)) 

dia) 

78 def pipelines(self, items): 

19 fileName = '2016 热门 电影 .txt" 

80 with codecs.open(fileName, 'w', 'utf8') as fp: 


269 


81 for item in items: 


82 fp.write('%s Nt $s Nt %s \r\n' %(item.movieName, 
item.movieScore, item.movieStarring) ) 

83 self.1og.info(' 电 影 名 为 : <<%s>> 已 成 功 存 入 文件 "%s"..."' 
%(item.movieName, fileName)) 

84 

85 

86 

87 if | name  -- ' main "': 

88 GM = GetMovie() 


单 击 Eclipse 图 标 栏 的 运行 图 标 ， 顺 利 获取 了 所 需 的 数据 ， 如 图 6-61 所 示 。 


File Edit Navigate Search Project Pydev Run Window Help 


HE PyDev Package.. 5: = CJ  [P)get2016movie | E 2016/5/ Jt 3 
v ls ss EPTETEIEE E 9.8 XhlsuabESONEET Bega 


4 WB moiveBS4 od 6.5 — &esERIHMz-* 
moe JAAA 7.3 — gesEmHSMA 
D 2016 热 门 电影 bt i&tueseg.mesqme 9.4 VesERES. 
El get2016movielog Smemesnaiz-me 6.0 £-escitmue 
= B 6mszust 6.7  mazBareee 
回 get2016movie.py 78203 8.0 geeaxXnawes 
P) mylog.py 8 ARSSEASIARAREFS 7.3 SEPNSRZNS 


@ D:\Program Files\python Satie mapas. 7.5 下 meme 
10 giB-enese 9.0 assheszue 


13 baiduBS4 lige iwi — 7.0 — s«emaacue 
窗 helloPython 128822 8.2 Weser ana 
会 qidianBs4 lamas 7.5 mermuateas 
自 test ligegamellsmtz 7.8 — SssTséBEResiESUE. 
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L3 winningNumBS4 lcgsree-ssmpecue — 7.0 B 4 
图 6-61 获取 数据 


0 Cy eee Se ei SINE ai access 


SAS fe diu BIC ET ART o IARE Re RM AAI Y HRA 


URE B ie — BUR du 


6.6.3 bs4 RER 


Tri P ZH Ba, dd D 73 fe rb Se Hh Re pU gi Ue EET BE. 73 3s 
不 好 被 封锁 了 怎么 办 ? 最 简单 的 方法 当然 是 换个 IP FRA, WERE BLAS AEH, tH fil 
单 ， 换 个 headers 就 可 以 了 “一般 聆 虫 默认 的 User-Agent 都 比较 特别 ， 很 容易 被 反扑 虫 程序 
找 出 来 ) 。 还 记得 每 个 项 目 中 都 有 的 getResponseContent 函数 吗 ? 本 来 只 需要 一 行 就 能 解决 


的 问题 ， 每 次 都 把 它 扩展 成 了 一 个 函数 ， 就 是 在 这 个 时 候 用 的 。 


【示例 6-12】 将 getResponseConteng 函数 修改 一 下 ， 最 终 的 get2016movieWithProxy.py 的 内 


容 如 下 : 
1 #!/usr/bin/evn Python3 
2 #-*= coding: utf-8 -*- 
gma 
4 Created on 20160080013090 


270 


5 
6 @author: hstking hst_king@hotmail.com 
1 
8 


9 from bs4 import BeautifulSoup 

10 import urllib.request 

11 import codecs 

12 from mylog import MyLog as mylog 
13 import sys 

14 import re 


15 

16 rProxy = ('http': 'http://127.0.0.1:1080'] 
al] 

18 class MovieItem(object): 

19 movieName = None 

20 movieScore = None 

21 movieStarring = None 

22 

23 


24 class GetMovie (object): 


25 — $ “获取 电影 信息 tn" 
26 def ^ init (self): 


27 self.urlBase = 'http://dianying.2345.com/list/----2016---1.html' 

28 self.log - mylog() 

29 self.pages - self.getPages() 

30 self.urls = [] #url jh 

31 self.items - [] 

32 self.getUrls(self.pages) # 获 取 抓 取 页 面 的 url 

33 self.spider(self.urls) 

34 self.pipelines (self.items) 

35 

36 def getPages (self): 

37 RAE RE 11. 

38 self.log.info(' 开 始 获取 页 数 ') 

39 htmlContent = self.getResponseContent (self.urlBase) 

40 soup = BeautifulSoup(htmlContent, 'lxml') 

41 tag = soup.find('div', attrs-('class':'v page']) 

42 subTags - tag.find all('a', attrs-('target': ' self']) 

43 self .1og.info(' 获 取 页 数 成 功 ') 

44 return int(subTags[-2].get text()) 

45 

46 def getResponseContent (self, url): 

47 "" "获取 页 面 返回 的 数据 '" " 

48 fakeHeaders= {'User-Agent':'Mozilla/5.0 (Windows NT 6.2; rv:16.0) 
Gecko/20100101 Firefox/16.0'} 

49 request = urllib.request.Request (url, headers=fakeHeaders) 

50 proxy = urllib.request.ProxyHandler (rProxy) 

51 opener = urllib.request.build opener (proxy) 

52 urllib.request.install opener (opener) 

53 try: 

54 response - urllib.request.urlopen (request) 

55 except: 

56 self.log.error('Python 返回 URL:%s 数据 失败 ' $url) 

597 return None 

58 else: 
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59 self.log.info('Python 返回 URUL:%s 数据 成 功 ' $url) 


60 return response.read().decode('GBK') 

61 

62 def getUrls(self, pages): 

63 urlHead = 'http://dianying.2345.com/list/----2016---' 

64 urlEnd - '.html' 

65 for i in range(l,pages * 1): 

66 url = urlHead + str(i) + urlEnd 

67 self.urls.append (url) 

68 self .lo0g.info(' 添 加 URL:%s BJ URLS 列表 ' Surl) 

69 

70 def spider(self, urls): 

71 for url in urls: 

72 htmlContent = self.getResponseContent (url) 

73 soup = BeautifulSoup(htmlContent, 'lxml') 

74 anchorTag = soup.find('ul', attrs={'class':'v_picTxt 
picl80_240 clearfix']) 

15 tags = anchorTag.find_all('li', attrs={'media': 
re.compile('\d{5}')}) 

76 for tag in tags: 

了 7 item = MovieItem() 

78 item.movieName = tag.find('span', 
attrs-('class':'sTit']).get text() 

79 item.movieScore - tag.find('span', 
attrs={'class':'pRightBottom'}) .em.get_text() .replace( wey, | 

80 item.movieStarring = tag.find('span', 
attrs-('class':'sDes']).get text().replace('XiB: ', '') 

81 self.items.append (item) 

82 self.1o0g.info(' 获 取 电 影 名 为 :<<%s>> 成 功 ' $(item.movieName)) 

83 

84 def pipelines(self, items): 

85 fileName = '2016 热门 电影 .txt"' 

86 with codecs.open(fileName, 'w', 'utf8') as fp: 

87 for item in items: 

88 fp.write('$s Nt $s Nt $s \r\n' $(item.movieName, 
item.movieScore, item.movieStarring)) 

89 self.1og.info(' 电 影 名 为 : <<%s>> 已 成 功 存 入 文件 "%s"...' 
$(item.movieName, fileName)) 

90 

91 

92 

93 if name == ' main "': 

94 GM - GetMovie() 


| 设置 的 rProxy 一 定 要 真实 有 效 的 代理 服务 器 ， 而 且 格式 也 不 能 错 ， 必 须要 写成 字典 
| 的 格式 。 


m 


好 了 ， 这 样 再 也 不 怕 被 网 站 封锁 了 。 封 锁 一 次 ， 大 不 了 
问题 。 


换个 代理 而 已 ， 简 简单 单 解决 
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6.6.4 ”代码 分 析 

本 节 的 代码 与 上 节 的 起 点 网 站 疏 虫 很 相似 ， 这 里 就 不 详细 解析 了 ， 只 分 析 一 下 其 中 的 不 同 之 
处 。 最 大 的 不 同 就 是 getResponseContent 函数 了 。 本 节 在 getResponseContent 函数 中 添加 了 一 个 
浏览 器 的 headers 和 一 个 经 过 验证 、 可 以 使 用 的 proxy， 解 除了 网 站 反 疏 虫 程 序 的 封锁 。 但 这 种 
反 有 息 虫 很 被 动 ， 只 有 被 封锁 了 才 会 解除 封锁 ， 而 不 能 主动 避免 反 息 虫 程序 的 封锁 。 


bs4 拒 虫 实战 五 : 获取 音 悦 台 榜 单 


既然 要 反 反 息 虫 ， 那 就 要 反 个 彻底 。 在 Scrapy 里 曾 提 过 反 息 虫 的 运行 机 制 ， 基 本 上 就 是 
通过 IP. headers 来 锁定 爬虫 用 户 ， 然 后 进行 封锁 〈 用 验证 码 、 验 证 图 案 的 不 在 讨论 范围 
中 ) 。 前 面 的 Scrapy 使 用 的 是 随机 跳 转 proxy 和 headers 的 方法 对 付 反 息 虫 。 这 里 也 是 如 此 
〈 反 反 和 疏 虫 的 手段 远 不 止 这 些 ， 比 如 使 用 专门 网 站 怜 虫 、 分 布 式 聆 虫 都 可 以 。 个 人 用 户 没 什 
么 特殊 要 求 ， 做 到 这 一 步 就 差不多 了 ) 。 


6.7.1 目标 分 析 

本 节 将 使 用 随机 proxy 和 headers EARP RMEH. FFF www.yinyuetai.com 网 站 ， 本 节 
疏 虫 的 目的 是 疏 取 音 悦 台 网 站 公布 的 MV 榜 单 。 单 击 网 站 最 上 方 的 “V 榜 ”， 从 弹出 菜单 中 
选取 “MV 作品 榜 ” 选 项 ， 打 开 了 音乐 V 榜 。 以 内 地 篇 为 例 ， 网 站 排列 除了 内 地 MV 音乐 榜 
的 前 50 名 ， 使 用 了 3 个 网 页 。 这 3 个 页 面 的 网 址 分 别 为 http://vchart.yinyuetai.com/vchart/trends? 
area=ML&page=1, http://vchart.yinyuetai.com/vchart/trends?area=ML&page=2, http://vchart.yinyuetai. 
com/vchart/trends?area=ML&page=3， 如 图 6-62 所 示 。 


6-62 ” 音 悦 台 榜 单 
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看 看 其 他 几 个 V 榜 中 的 地 区 代码 ， 分 别 是 HT、US、KR 和 JP, Urls 的 规则 很 明了 了 。 
再 来 看 看 怜 虫 的 抓 取 规则 。 在 网 页 的 任意 空白 处 右 击 ， 选 择 弹 出 菜单 中 的 “查看 网 页 源 代 
码 ” 项 ， 打 开 页 面 源 代 码 页 面 ， 如 图 6-63 所 示 。 


Q D view-source:vchartyinyuetai.com/vchart/trends?area=HT 
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图 6-63 源码 页 面 


所 有 的 上 榜 MV 都 在 标签 <div class="op_num"> 这 个 标签 下 。 扑 虫 的 抓 取 规则 也 有 了 ， 下 
面 就 看 具体 实施 了 。 


6.7.2 ”项目 实施 

打开 Eclipse， 创 建新 项 目 YinYueTaiBS4URL， 并 在 项 目 中 创建 一 个 PyDev Modules 文 
件 getTrendsMV.py 作为 主 文件 ， 把 上 节 项 目 中 使 用 过 的 mylog.py 复制 到 当前 目录 下 。 因 为 
要 使 用 不 同 的 proxy 和 headers， 再 创建 一 个 新 的 资源 文件 resource.py。 

ZIE, mylog.py 可 以 略 过 ， 这 次 先 看 看 resource.py。 


【示例 6-13] resource.py 的 内 容 如 下 : 


1 #!/usr/bin/env Python3 

2 $-*- coding: utf-8 -*- 

3 author  - 'hstking hst_king@hotmail.com' 
4 

5 


UserAgents = [ 
6  "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; 
AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", 
7  "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; 
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SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)", 

8  "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; 
Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", 

9  "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)", 

10  "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; 
Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media 
Center PC 6.0)", 

11  "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; 
WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 
3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)", 

1 "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 
1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)", 

13  "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 
(KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)", 

14  "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like 
Gecko, Safari/419.3) Arora/0.6", 

15 "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) 
Gecko/20070215 K-Ninja/2.1.1", 

16 "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) 
Gecko/20080705 Firefox/3.0 Kapiko/3.0", 

17  "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5", 

18 "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko 
Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6", 

19 "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like 
Gecko) Chrome/17.0.963.56 Safari/535.11", 

20  "Mozilla/5.0 (Macintosh; Intel Mac OS X 10 7 3) AppleWebKit/535.20 
(KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20", 

21  "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 
Version/11.52", 

22 

29 

24 PROXIES = [ 

25 ('http*: "58.20.238. 103:9797"}, 

26 DEEP 5123:51:5115:2141;:9797*1; 

27 ['h6tpu: 1121.12.149.18:2226™}, 

28 ['http':; "176.31.96.198:3128"}, 

29 ['http': "61.129.129.72:8080"}, 

30 ('http': '115.238.228.9:8080'], 

31 ('http': '124,232,148.3:3128'], 

32 ('http': '124.88.67.19:80'], 

33 ('http': "60.251.63.159:8080"}, 

34. {' ttp": "118.180.15.152:8102"} 

35 
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这 个 文件 很 简单 ， 仅 包含 了 2 个 列表 。UserAgents 列表 只 需要 在 网 上 找 一 下 ， 可 以 找到 
各 种 各 样 的 headers， 排 除 掉 移动 端的 也 有 不 少 (有 的 网 站 根据 客户 端的 不 同 ， 返 回 的 数据 也 
不 同 ) ， 尽 量 选择 大 众 化 的 UserAgent。 而 proxies 那 就 更 简单 了 ，Scrapy 项 目 中 不 是 有 个 
getProxy 项 目 吗 ? 执行 条 命令 而 已 ， 来 个 100 条 proxy 都 没 问 题 。 这 里 仅 为 测试 给 数 十 个 
proxy 就 可 以 了 ， 只 需 稍微 注意 一 下 ， 不 要 选择 https 协议 的 就 可 以 了 https 协议 的 proxy 也 
可 以 用 ， 但 有 可 能 会 增加 代码 工作 量 。 既 然 http 协议 的 够 用 了 ， 就 不 用 那么 费劲 了 ) 。 


【示例 6-14】 主 程序 getTrendsMV.py 的 内 容 如 下 : 


#!/usr/bin/evn python3 
#=*= coding; utf=8 =*= 


Created on 201669899109 9 


m 


@author: hstking hst_king@hotmail.com 


© 0 - 0 U4 & QM 


from bs4 import BeautifulSoup 


m 
o 


import urllib.request 


m 
= 


import codecs 


m 
N 


import time 


m 
w 


from mylog import MyLog as mylog 


m 
心 


import resource 


m 
a 


import random 


PR 
wo 


class Item(object): 


18 top num = None # 排 名 

19 score = None #4J4} 

20 mvName = None #MV 名 字 

21 singer = None # 演 唱 者 

22 releasTime = None # 释 放 时 间 

23 

24 

25 class GetMvList (object): 

26 '''The all data from www.yinyuetai.com 
27 所 有 数据 都 来 自 www.yinyuetai .com 

28 Tint 

29 def ^ init (self): 

30 self.urlBase = 'http://vchart.yinyuetai.com/vchart/trends?' 
31 self.areasDic = 


('ML':'Mainland','HT':'Hongkong&Taiwan', 'US':'Americ', 'KR':'Korea', 'JP':'Japan 
VE 
32 self.log - mylog() 
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33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
Yt) 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
7A 
72 
HS 
74 
LEI 


self.getUrls() 


def getUrls (self): 
"ug url yh t! 
areas = ['ML','HT','US','KR','JP'] 
pages = [str(i) for i in range(1,4)] 
for area in areas: 
urls = [] 
for page in pages: 
urlEnd = 'area-' + area + '&page-' + page 
url = self.urlBase + urlEnd 
urls.append(url) 
self.log.info(u'}§f URL:%s 到 URLS' %url) 


self.spider (area, urls) 


def getResponseContent (self, url): 
"" "从 页 面 返回 数据 I1 n1 
fakeHeaders = {'User-Agent':self.getRandomHeaders () } 
request = urllib.request.Request (url, headers=fakeHeaders) 


proxy = urllib.request.ProxyHandler (self.getRandomProxy () ) 
opener = urllib.request.build_opener (proxy) 
urllib.request.install_opener (opener) 
try: 
response = urllib.request.urlopen (request) 
time.sleep (1) 
except: 
self.log.error(u'Python 返回 URL:%s 数据 失败 ' sur1l) 
return '' 
else: 
self.log.info(u'Python 返回 URUL:%s 数据 成 功 ' $url) 
return response.read().decode('utf-8') 


def spider(self,area,urls): 
items — [] 
for url in urls: 
responseContent - self.getResponseContent (url) 
if not responseContent: 
continue 


soup = BeautifulSoup(responseContent, 'lxml') 
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76 tags = soup.find all('li', attrs={'name':'dmvLi'}) 


ir] for tag in tags: 

78 item = Item() 

79. item.top num = tag.find('div', 
attrs-('class':'top num']).get text() 

80 if tag.find('h3', attrs={'class':'desc_score'}): 

81 item.score = tag.find('h3', 
attrs-('class':'desc score']).get text() 

82 else: 

83 item.score = tag.find('h3', 
attrs-('class':'asc score']).get text() 

84 

85 item.mvName - tag.find('img').get('alt') 

86 item.singer - tag.find('a', 


attrs={'class':'special'}) .get_text() 
87 item.releaseTime = tag.find('p', 
attrs={'class':'c9'}) .get_text() 


88 items .append (item) 

89 self.1og.info(u' 添 加 mvName 为 <<%s>> 的 数据 成 功 ' % (item.mvName) ) 

90 self.pipelines(items, area) 

91 

92 

93 def getRandomProxy(self): # 

94 proxy = random.choice (resource.PROXIES) 

95 print (proxy) 

96 return proxy 97 

98 def getRandomHeaders (self): # 随 机 选取 文件 头 

99 return random.choice (resource.UserAgents) 

100 

101 

102 def pipelines (self, items, area): &AREEXKHUIEGE 

103 fileName = 'mvTopList.txt' 

104 nowTime = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime()) 

105 with codecs.open(fileName, 'a', 'utf8') as fp: 

106 fp.write('$s ------- Ss\r\n' $(self.areasDic.get(area), 
nowTime)) 

107 for item in items: 

108 fp.write('$s $s Nt $s Nt $s Nt %s \r\n' 

109 $(item.top num, item.score, item.releaseTime, 
item.singer, item.mvName)) 

110 self.1og.info(u' 添 加 mvName 为 <<%s>> 的 MV Hiss..." 
%(item.mvName, fileName) ) 

EET fp.write('\r\n'*4) 
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112 

113 

114 if name _ == '_main ": 
115 GML = GetMvList() 


所 有 的 代码 都 完成 了 ， 开 始 运行 。 单 击 Eclipse 图 标 栏 上 的 运行 图 标 ， 执 行 
getTrendsMV.py， 得 到 的 结果 如 图 6-64 所 示 。 


File Edit Navigate Search Project Pydev Run Window Hep 
0 ee: aS | & (8) 


: getrre E] mwToplisttet 52 
1Nainland ------- 2016-08-20 00:50:27 
20191.32 — memexswe2016- Er 
302 91.31 — measxsw2018-08-18 EXO Lotto aiene 

BD getTrendsMV.log 403 89.81 — ESXSe2016-00-12 — ZERO-G  ARČMATEMRARARS la 
By getlrendsMV.py 504 88.20  gEMSASE2016-08-08 SEANS WeGK"RG  RERCRERANSRRARY 
"petitis 505 86.73 。 memsxewe2015-07-20 —— TFBOYS 。 gévgeib ma mecvaERL iae 
BB mvToplisttet 706 86.15 — grmmzzse2016-00-17 sence x  paemacsetdame 
7] mvTopListtxt - 记事 本 -*- 
XHA RRO SO) EEV) ADH) 
Mainland ————2016-08-20 00:50:27 


01 91.32 : 2016-07-19 FM 的 思念 网 络 剧 < 超 少年 密码 插曲 
02 91.31 : 2016-08-18 EXO ^ Lotto rh PS 

03 89. 81 : 2016-08-12  ZERO-G XH ya 富 

04 88.21 : 2016-08-08 ERA 还 的 EC pas eae 
05 86. 73 : 2016-07-20  TRBOYS 2 AM, 

06 86,15 : 2016-08-17 RA rea fy 

OT 78.73 : 2016-07-21 r4 M B hi 过 你 官方 版 

08 75.54 : 2016-08-15 do Gu SENM 

09 67. 04 : 2016-07-19 

10 65.92 . 2016-08-18 Ry 

11 64. 66 + 2016-08-09 M 《微微 一 笑 很 倾城 ;片尾 曲 
12 64.54 : 2016-08-16 


2016-08-12 
016-07- 


图 6-64 运行 getTrendsMV.py 


好 了 ， 程 序 执行 结果 没 问题 。 如 果 想 知道 实时 榜 单 ， 单 击 鼠 标 运行 一 下 程序 就 可 以 了 。 


13 63.85 


6.7.3 ”代码 分 析 


本 节 的 getTrendsMV.py 有 息 虫 从 功能 上 看 要 比 上 节 的 被 动 式 反 仆 虫 要 复杂 一 些 ， 但 代码 更 
简单 一 点 。 项 目 中 mylog.py 没什么 好 说 的 ， 就 一 log 助手 而 已 。resource.py 也 无 须 多 说 ， 就 
一 资源 文件 。 如 果 觉 得 手动 挑选 proxy 比较 麻烦 ， 可 以 再 写 一 个 Python 程序 让 其 自动 导入 
proxy 到 resource.py 中 。 唯 一 需要 分 析 的 就 是 getTrendsMV.py 主 程序 了 。 

第 9~15 行 ， 开 头 还 是 导入 所 需 的 模块 ， 这 里 只 是 多 导入 了 一 个 random 模块 ， 用 于 从 列 
表 中 随机 挑选 User-Agent 和 proxy。 

第 17~22 行 创建 一 个 Item 类 ， 这 个 是 仿照 Scrapy 的 Item.py 写 的 ， 也 很 简单 。 

第 25-111 行 是 GetMvList 类 。 这 个 类 将 从 音 悦 台 网 站 中 获取 所 需 的 数据 。 第 29~32 行 给 
出 了 起 始 页 面 和 urls 的 规则 列表 ， 然 后 _init_ 函数 自动 执行 了 self.getUrls PAX. self.getUrls 
再 调用 其 他 函数 ， 完 成 类 设计 的 功能 。 第 36-47 行 是 getUrls 函数 ， 将 利用 起 始 页 url 的 页 面 
规则 ， 将 所 有 需要 怜 取 的 网 页 url. FAF urls 列表 中 。 第 51-67 行 是 getResponseContent K 
数 ， 它 将 返回 请 求 url 的 数据 。 每 执行 一 次 getResponseContent 函数 都 将 调用 一 
self.getRandomHeaders 和 self.getRandomProxy 函数 。 随 机 选择 一 个 proxy 和 User-Agent 使 
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Hj. (eH MR AEG. 56 61 行 的 作用 是 每 执行 一 次 函数 都 将 暂停 1 秒 ， 避 免 被 
反扑 虫 工 具 发 觉 ( 这 个 暂停 的 秒 数 可 以 用 random 选 出 一 个 随机 数 ， 这 样 更 加 安全 ) 。 第 
69-90 行 是 spider 函数 ， 它 的 作用 就 是 根据 怜 虫 的 抓 取 规 则 ， 从 返回 的 数据 中 抓 取 所 需 的 数 
据 。 第 93-96 行 是 getRandomProxy 函数 和 getRandomHeaders 函数 ， 虽 然 这 个 函数 的 功能 所 
以 精简 成 一 条 语句 ， 但 还 是 写成 了 函数 ， 这 是 为 了 以 后 有 什么 新 功能 可 以 很 方便 地 添加 进 
去 。 第 102-111 行 是 pipelines 函数 ， 将 所 有 抓 取 到 的 有 效 数 据 保存 到 txt 文件 中 。 第 114~115 
行 是 程序 的 _main 程序， 只 有 一 条 命令 ， 用 于 实例 化 GetMvList X. 


6.8 sane 


bs4 EREINEK. IOLA EF n] ABE Dr IO ee b Je rb, d EE LR — hà 
点 ， 需 要 从 头 到 尾 的 写 代码 ， 这 上 毕竟 是 作文 题 。 填 空 题 虽 然 简单 ， 但 从 头 到 尾 都 身 不 由 己 ， 
得 按照 框架 作者 的 思路 走 。 作 文 题 毕竟 是 自己 写 的 ， 可 以 随心 所 欲 地 修改 调整 。 如 果 是 比较 
小 的 项 目 ， 个 人 建议 还 是 用 bs4， 可 以 有 针对 性 地 根据 自己 的 需要 编写 朴 虫 。 大 项 目 ， 那 还 
是 建议 选 Scrapy 吧 ，Scrapy 能 流行 至 今 可 不 是 浪 得 虚名 的 。 
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第 7 章 
< Mechanize 模 所 浏览 器 > 


细心 的 读者 应 该 已 经 发 现 了 ， 本 章 之 前 的 怜 虫 讲 的 都 是 对 一 般 静 态 网 站 的 数据 过 滤 ， 但 
不 是 所 有 的 网 站 都 可 以 这 么 简单 地 得 到 数据 的 。 比 如 ， 某 些 站 点 需要 登录 后 才能 获取 数据 ， 
这 样 一 来 ， 仅 靠 urllib2 模块 就 有 点 力不从心 了 Curllib2 模块 也 可 以 爬 取 动态 网 站 的 数据 ， 不 
过 过 程 就 很 麻烦 了 ) 。 幸 好 Python 还 有 更 加 强大 的 模块 Mechanize。 

Mechanize 并 不 是 息 虫 ， 它 是 一 个 Python 模块 ， 用 于 模拟 浏览 器 的 模块 。 本 书 讲 的 是 网 
络 息 虫 ， 直 接 息 数据 就 好 了 ， 为 什么 会 跟 Mechanize 扯 上 关系 呢 ? 前 面 的 章节 都 是 使 用 
urllib2 模块 向 服务 器 发 送 请 求 的 。 如 果 网 页 要 求 登录 ， 输 入 用 户 名 、 密 码 ，urllib2 可 以 应 
付 ， 但 如 果 是 需要 输入 验证 码 那 就 麻烦 了 。 目 前 有 开源 的 方案 可 以 解决 这 个 问题 ， 只 不 过 需 
要 绕 很 多 弯路 ， 倒 不 如 直接 使 用 模拟 浏览 器 ， 很 方便 地 解决 这 个 问题 。 

Python 的 第 三 方 模块 中 ， 能 模拟 浏览 器 的 模块 也 不 少 。 选 择 Mechanize 的 原因 在 于 它 的 
易 用 性 和 实用 性 比较 平衡 ， 功 能 强大 而 又 简单 易 用 ， 就 选 它 了 。 


安装 Mechanize 模块 


Mechanize 的 官网 是 http://wwwsearch.sourceforge.net/mechanize/。 在 官网 中 给 出 了 3 种 安 
装 方法 : easy install 安装 、 源 码 安装 和 git 安装 。 实 际 安装 时 根据 平台 特性 选择 最 简单 的 安 
装 方法 即 可 。 


E 因为 Mechanize 只 工作 于 Python 2 平台 下 ， 所 以 本 章 所 使 用 的 Python 版 本 为 Python 2. 
| 尽管 使 用 了 Python 2， 版 本 低 一 点 ， 但 是 作为 一 个 工具 ， 读 者 必须 熟悉 一 下 。 


7.1.1 Windows 下 安装 Mechanize 


在 Windows 中 安装 Python 的 第 三 方 模块 ， 最 简单 的 方法 莫 过 于 pip 了 《前 提 条 件 是 已 经 
配置 过 pip 源 了 ， 使 用 初始 源 会 比较 慢 ) 。 打 开 cmd.exe， 执 行 命令 : 


pip install mechanize 


执行 结果 如 图 7-1 所 示 。 


\Users\king>pip install nechanize 
‘Collecting mechanize 
g mechanize-8.2.5.tar.gz (383kB) 


143kB 354kB/s eta 0:80:01 
! 153kB 253kB/s eta 8:80:8 
1 163kB 245kB/s eta 8:08: 
1 174kB 243kB/s eta 0:00 
! 184kB 387kB/s eta 8:8 

! 194kB 386kB/s eta 8: 

! 204kB 382kB/s eta 8: 
! 215kB 382kB/s eta 8 

! 225kB 382kB/s eta 

1 235kB 383kB/s eta 
! 245kB 383kB/s et 
1 256kB 664kB^s e 

1 266kB 721kB/s 
1 276kB 736kB/s 
! 286kB 673kB/s 
1 296kB 678kB^ 

! 387kB 691kB 

1 317kB 696k 

1 327kB 701 
! 337kB 78 
! 348kB 78 
1 358kB 7 -| 


FA 7-1 Windows 安装 mechanize 


已 经 把 Mechanize 安装 到 Windows 上 ， 可 以 直接 使 用 了 。 


7.1.2. Linux 下 安装 Mechanize 

在 Linux 下 找 安装 软件 最 简单 的 方法 还 是 apt-get, Ri “FRE” WJ Debian 软件 库 ， 即 使 
是 Python 模块 也 可 以 用 apt-get 一 键 安装 。 不 必 介 意 Mechanize 官网 上 的 安装 建议 ， 怎 么 简单 
怎么 来 就 可 以 了 。 执 行 命令 : 


apt-get install python-mechanize 


执行 结果 如 图 7-2 所 示 。 


图 7-2 Linux 安装 Mechanize 
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因为 Mechanize 很 久 没 更 新 的 缘故 ，Linux 下 安装 的 最 稳定 版 本 也 是 最 新 的 版 本 0.2.5. 
不 过 无 须 担 忧 ，Mechanize 已 经 很 强大 了 ， 使 劲 地 往 好 的 方面 想 ， 说 不 定 没 更 新 是 因为 这 个 
模块 已 经 改 无 可 改 了 呢 ! 


7.2 Mechanize 测试 


百 闻 不 如 一 见 ， 说 得 再 多 也 不 如 直接 测试 一 次 。Mechanize 模块 常用 的 命令 、 方 法 并 不 
多 ， 作 为 普通 使 用 者 ， 无 须 追 求 掌控 所 有 细节 ， 只 需要 能 使 用 、 会 使 用 即 可 。 它 只 是 一 个 很 
简单 的 模块 ， 多 试 几 次 就 能 熟练 掌握 。 


7.2.1 Mechanize 百度 

先 试 一 下 最 简单 的 用 法 ， 以 最 常用 的 网 站 百度 为 例 。 使 用 Mechanize 访问 百度 搜索 站 
点 ， 并 使 用 百度 搜索 “Python 网 络 息 虫 ”得 到 返回 结果 。 如 果 不 使 用 Mechanize， 就 只 能 在 
浏览 器 中 输入 搜索 的 关键 字 ， 再 观察 URL 的 变化 规律 ， 最 后 将 所 有 的 URL 注入 列表 中 ， 一 
个 个 地 返回 结果 疏 取 数据 。 下 面 演示 如 何 使 用 Mechanize 模拟 浏览 器 ， 搜 索 关 键 字 。 

使 用 Putty 连接 到 Linux， 运 行 Python 程序 ， 并 导入 Mechanize 模块 ， 如 图 7-3 所 示 。 


kingédebian:-$ python 

Python 2.7.9 (default, Mar 1 2015, 12:57:24) 

[GCC 4.9.2] on linux2 

Type "help", "copyright", "credits" or "license" for more information. 


||>>> import mechanize 
>>> [ 


图 7-3 Mechanize 环境 
在 Python 环境 下 ， 执 行 命令 : 


br = mechanize.Browser() 


br.set handle equiv (True) 

br.set handle redirect (True) 

br.set handle referer(True) 

br.set handle robots (False) 

br.set handle gzip(False) 

br.set handle refresh (mechanize. http.HTTPRefreshProcessor(), max time-1) 
br.addheaders - [('User-Agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; 

rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] 


执行 结果 如 图 7-4 所 示 。 


"n 
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Python 2.7.9 (default, Mar 1 2015, 12:57:24) 

[GCC 4.9.2] on linux2 

Type "help", "copyright", "credits" or "license" for more information. 
>>> import mechanize 

>>> br = mechanize.Browser() 

>>> br.set handle equiv (True) 


>>> br.set_handle redirect (True) 
br.set handle referer (True) 
br.set handle robots (False) 
br.set handle gzip(False) 
br.set handle refresh(mechanize. http.HTTIPRefreshProcessor(), max time-i) 
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv: 
.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] 


7-4 Browser 环境 设置 
使 用 Mechanize 浏览 器 打开 百度 搜索 的 主页 ， 并 查看 网 页 中 的 框架 。 执 行 命令 


br.open('https://www.baidu.com'): 
for form in br.forms(): 


print form 


执行 结果 如 图 7-5 所 示 。 


ESPTTUT-60 whose wrapped object = «closeable respo 
Inse at Ox7faSb4c91368 whose fp = «socket. fileobject object at Ox7faSbá4ccccS0»»» 


»»»[for form in br.forms 
s print form 


«HiddenControl(f-8) (readonly)» 
«HiddenControl(rsv bp-1) (readonly)» 


<HiddenControl (rsv_idx=1) (readonly)> 

«HiddenControl(ch-) (readonly)» 

<HiddenControl (tn=baidu) (readonly)» 
(readonly) > 


(readonly) > 

«HiddenControl(rn-) (readonly)> 

<HiddenControl(oq=) (readonly)> 

«HiddenControl(rsv pq-e21416f7000ac4be) (readonly)> 

«HiddenControl(rsv t-2358R/NVmDD*/zEba6aqmOPkH9Q20Hj304sMNarrDF8Ce*yxoLNtKDM4Oz 
lak) (readonly)» 

«HiddenControl(rqlang-cn) (readonly)»» 
>>> [] 


7-5 ”显示 网 页 框架 


从 图 7-5 中 可 以 看 出 ， 只 有 一 个 名 字 为 了 f 的 框架 (有 时 候 框架 没有 名 字 ， 只 能 用 它们 的 
顺序 来 选择 ， 比 如 第 一 个 框架 是 nr=0， 第 二 个 是 nr=1， 以 此 类 推 ) 。 输 入 文字 的 位 置 为 文本 
输入 框 <TextControl (wd=)>。 选 择 框架 ， 在 框架 内 输入 数据 后 提交 数据 。 以 搜索 “Python 网 
BM” AP, HIRA: 


br.select form(name-'f') 
br.form['wd'] = "Python [Ne&fed' 
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br.submit () 


执行 结果 如 图 7-6 Bras. 


>>> 
>>> br.select_form(name='f') 

>>> br.form['wd'] = 'Python Miek: 
>>> br.submit() 
<response_seek_wrapper at 0x7faSb4c91dd0 whose wrapped object = «closeable respo 
nse tl Ox7faSb4cba830 whose fp = «socket. fileobject object at 0x7fa5b4cd3dd0>>>| 
>>> 


图 7-6 搜索 关键 字 


m 


返回 搜索 的 结果 ， 执 行 命令 : 


print br.response().read() 


执行 结果 如 图 7-7 所 示 。 


<div class-"c-row c-gap-top"> 


<div class-"c-span4 opr-recommends-merge-item opr-recommends-merge-item-ver 
tical" data-click="{'rsv_re_ename':'python 计 算 与 编程 实践 ', 'rsv_re_uri':'c50e36f1 
£0084ec6bd908f5ea30d1be7')"» 


«div class-"opr-recommen| ] 
[ds-merge-p"» 
<a target="_blank" href-"/s?rsv idx-1&wd-python&ESSAESA1$E7SAES974E4 
'&BS$8ESE7$BCT9645E7tABS8BAESSAESSESES1B7iBS&usm-l&ie-utf-8&rsv cq-pythonstE7$BDi9 
18E7$BB$9CtE7$88*ACSES8$99$AB&rsv dl-0 right recommends merge 21102&amp;cq-python 
$20$E7$BD$91*E7t*BBS9CSE7$88*ACSE8t99$AB&amp;srcid-28310&amp;rt-$ESSAESA1$E7SAES9 
7&E6$9CSBASE7*Bl1t*BBSE4$B9$A6tE7tB1t8D&amp;recid-21102&amp;euri-c50e36f1f0084ec6b 
d908f5ea30dibe7"»«img data-img-"https://ss2.baidu.com/60NYsjipOQIZ8tyhng/it/u-4 
063802933,465813&fm-58" class-"c-img c-img4 opr-recommends-merge-img"/»«/a» 
</div> 
<div class="c-gap-top-small"><a target="_blank" title="python 计 算 与 编程 
实践 " href="/3?rsV_idx=18wd=pYchon4E8SAESRA1SETSRAES974SE44B8S8ESETSBCS96SE7SR8S8BS 
E5SRES9ESE84B74SB56Usm=151e=utf-8kr3V_cq=pYLhon+SE74SBD4914E74BBS9CSE7$884ACSE8S99 
SAB&rsv_d1=0_right_recommends_merge_21102éamp;cq=pythont20%E7*BDt91%E7%BBt9CsE7% 
S8SACSESt99tABsamp; srcid=28310éamp; rt=tEStAEtA1tE7SAES97 EGS OCEBASE 7 $B1SBBtE4tB9 
SA6%E7%B1%8Déamp; recid=21102éamp; euri=cS0e36£1£0084ec6bd908£5ea30d1be7">pythonit 


算 与 编程 实践 </a></div> 


</div> - 
图 7-7 返回 搜索 结果 
查看 返回 页 面 的 所 有 链接 ， 执 行 命令 : 


for link in br.links(): 
print("$s : $s" $(link.url, link.text)) 


执行 结果 如 区 


EJ 


7-8 所 示 。 
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Ihttp://tieba.baidu.com/f?kw-Pythont20$CD$F8$C21E7$C51COiB3iE6&fr-wwwt : 贴吧 ^ 
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E6 : 音乐 
http://image.baidu.com/search/index?tn-baiduimage&ps-1&ct-201326592&1m--1&cl-2&n 
c-1&ie-utf-8&word-Pythont20&CD&F8$C23E7&CsaCO BSREG : 图 片 
http://v.baidu.com/v?ct-301989888&rn-20&pn-0&db-0&s-25&ie-utf-S&word-Pythont208C 
DtF84C24E74C54C04B34E6 : 视频 
http://map.baidu.com/m?word-Pythont20&CDAF84C23E7SCSSCOSBSSEG&fr-psO1000 : 地 图 
Inttp: //wenku.baidu.com/search ?word=Pythont20¢CD8F8$C2$E7$CS$COSB3$E6é1m=0é0d=06i 
e=utf-8 : 文库 

//www.baidu.com/more/ : 更 多 > 

javascript:; : 

/s?rsv idx-1&wd-SES$87*AASESSB7$B1SESSGARABSSEGROOSBSBSESS86$993E7 3BD$91 E7SBBS9CS 
E7$885ACSES$995AB&usm-1&ie-utf-8&rsv cq-python«tE7$8Dt91$E7$8Bt9CtE7t88$ACSESt99| | 
&AB&rsv dl-0 right recommends merge 21102&cq-python$20$E7$8D$91$1E7$BB$9CSE7$885A 
CSE8$991AB&srcid-28310&rt-3ESSAESAISETSAES97SEGS9CSBASE7$B1$BBSE4TB9TA6TE73B1t96D 


/s?rsv : FETS STRAT ETS TEANEES EET EDT TESTDATRE NE SES OSERNESEECTOSTETAEDEOINETEEDTOCT 
E7$8SSACtESt99tABsusm=1éie=utf-Sérsv_cq=python+$E7%BDt91%E7 $BBsOCsE7tGStACsESso9 


|AB&rsv dl-0 right recommends _merge_21102écq=python$20%£7$BD%91%E7$BBS9CtE7$88tA, 
CESS 99$ABesrcid=283106rt=tESSAESA1$E7$AE%97$E6%9CSBASE 7431 SBBAE43B9SACRE74B1A8D 
&recid-21102&euri-b44b507f21c84b2991b738b574444dib : 自己 动手 写 网 络 怜 虫 - 


图 7-8 返回 链接 
使 用 Mechanize 浏览 器 打开 指定 链接 ， 执 行 命令 : 
newLink = br.click link(text-' B GF S IA ed" ) 


br.open (newLink) 


执行 结果 如 图 7-9 所 示 。 


>>> 
>>> newlink = br.click link(text-' Bosé) 


>>> br.open(newLink) 


Kresponse seek wrapper at Ox7fa5b4d08200 whose wrapped object = «closeable respo - 
nse at Ox7faSb46Sedd0 whose fp = «socket. fileobject object at Ox7faSbáSeS050»»»[ ] 
>> [] ~ 


图 7-9 打开 链接 


如 果 觉 得 打开 的 链接 不 对 ， 还 可 以 使 用 br.back0 命 令 返 回 上 一 个 页 面 。Mechanize 的 基 
本 操作 就 是 这 些 了 。 


7.2.20 Mechanize 光 猫 F460 


Mechanize 可 以 模拟 登录 ， 只 是 现在 几乎 所 有 的 站 点 登录 都 需要 输入 验证 码 。 虽 然 也 有 
开源 的 解决 方案 ， 可 以 解决 验证 码 什么 的 ， 但 是 后 面 有 更 简单 的 解决 方案 ， 没 必要 在 这 里 与 
验证 码 死 奢 。 笔 者 一 向 认为 ， 最 简单 的 方法 就 是 最 合适 的 方法 ， 宁 愿 多 敲 几 行 代 码 ， 也 要 选 
择 最 简单 的 。 

如 今 无 须 验证 码 就 可 以 登录 的 站 点 不 好 找 。 好 在 身边 有 一 个 现成 的 Web 服务 器 符合 要 
求 ，F460 光 猫 的 配置 页 面 ， 而 且 正 好 是 动态 回复 数据 的 ， 简 直 是 为 Mechanize 量 身 定做 的 。 

在 浏览 器 中 打开 光 猫 F460 的 配置 页 面 http:/192.168.1.1， 执 行 结果 如 图 7-10 所 示 。 
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7-10 F460 光 猫 登录 


填写 用 户 名 和 密码 后 单 击 “ 登 录 ” 按 钮 (用 户 名 是 admin， 密 码 要 么 直接 问 电信 ， 要 么 
在 百度 里 搜索 一 下 “hack f460 2638" ) ， 进 入 配置 界面 ， 结 果 如 图 7-11 所 示 。 


D192.1681.1 


ZEN | AA 
设 型 | Faso 
RRE | 4C09B4-453004C09845B4692 
vao 


2.30.1003T2hbH 


图 7-11 获取 光 猫 F460 信息 
先 用 Python 模拟 测试 一 次 。 打 开 Putty， 登 录 到 Linux, PEA Python 环境 。 执 行 命令 : 


import mechanize 


cj = mechanize.CookieJar() 

br = mechanize.Browser() 

br.set handle equiv (True) 

br.set handle gzip (False) 

br.set handle redirect (True) 

br.set handle referer (True) 

br.set handle robots (False) 

br.set handle refresh(mechanize. http.HTTPRefreshProcessor(), max time-1) 

br.addheaders - [('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.81 Safari/537.36')] 

br.set cookiejar (cj) 
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br.open('http://192.168.1.1') 


执行 结果 如 图 7-12 所 示 。 


[Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
|pezmitted by applicable law. 
Last login: Thu Aug 25 15:41:52 2016 from 192.168.2.99 
king@debian:~$ python 
Python 2.7.9 (default, Mar 1 2015, 12:57:24) 
[GCC 4.9.2] on linux2 
Type "help", "copyright", "credits" or "license" for more information. 
>>> import mechanize 
cj = mechanize.CookieJar() 
br = mechanize.Browser() 
br.set handle equiv (True) 
br.set handle gzip(False) 
br.set handle redirect (True) 
br.set handle referer(True) 
br.set handle robots (False) 
br.set handle refresh(mechanize. http.HTIPRefreshProcessor(), max time-1) 
>>> br.addheaders = [('User-agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWe| 
|bKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.81 Safari/537.36')] 
>>> br.set cookiejar(cj) 
>>> br.open('http://192.168.1.1') 
Kresponse seek wrapper at Ox7flObeffc908 whose wrapped object = «closeable respo| 
inse Pi Ox7fiObfO6dbd8 whose fp = «socket. fileobject object at Ox7f10bf032c50»»»| j 
>>> 


图 7-12 模拟 浏览 器 打开 光 猫 F460 主页 
查看 网 页 上 的 框架 ， 执 行 命令 : 


for form in br.forms(): 


Print form 


执行 结果 如 图 7-13 所 示 。 


>>> 
>>> for form in br.forms(): 
m print form 


fLogin POST http://192.168.1.1 application/k-www-form-urlencodea 
<TextControl (Username=) > 
<PasswordControl (Password=) > 
«SubmitControl(«None»-me M) (readonly) > 
<SubmitControl (<None>=53 vES) (readonly)> 
<HiddenControl (Frm Logintoken-) (readonly) >> 
>>> [] 


图 7-13 查看 主页 框架 


从 图 7-13 可 以 得 知 ， 主 页 框架 的 名 字 是 代 ogin， 框 架 内 文本 框 变量 名 是 Username, 
码 框 的 变量 名 是 Password。 进 入 文本 框 ， 给 变量 赋值 后 ， 发 送 数据 。 执 行 命令 : 


br.select form(name-'fLogin') 


br.form['Username'] = 'admin' 

br.form[' Password'] = '*******!# 这 里 输入 光 猫 F460 的 密码 
br.submit () 

print br.response() .read() .decode ('gb2312') 
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BS 


其 中 ， 在 选择 框架 时 ， 可 以 用 框架 名 字 ， 也 可 以 用 框架 的 序列 号 ， 序 列 号 从 0 开始 。 例 
如 ， 在 这 里 选择 框架 时 就 可 以 用 br.select_form(nr=0)。 如 果 需 要 选择 第 二 个 框架 ， 则 是 


br.select_form(nr=1)。 执 行 结果 如 图 7-14 所 示 。 


|var dHeight = iframe.contentWindow.document.documentElement.scrollHeight; 
|var height = Math.max(bHeight, dHeight); 
iframe.height = height: 

)catch (ex) {} 

} 

lwindow. setInterval ("reinitIframe ()", 200); 
</script> 

<body align="center"> 

<div align="center" style="margin:0 auto;" > 
<table width="808px" border="0"> 

<tr><td> 


<iframe width="808px" height-"145px"| [name-"topFrame" scrolling="no 
" frameborder="0" id=! 
<iframe width="808px" 


图 7-14 获取 框架 URL 


这 里 显示 了 框架 的 链接 。 根 据 链接 的 地 址 template.gch， 直 接 使 用 Mechanize 创建 的 浏览 


器 打开 这 个 链接 就 可 以 了 。 执 行 命令 : 


br.open(‘http://192.168.1.1/template.gch’ ) 
print br.response().read().decode('gb2312') 


执行 结果 如 图 7-15 所 示 。 


«div class="space_0"> 

table class="infor" id-"TABLE DEV" width="410" border="0" cellpadding="0" cell 
|spacing-"1" bgcolor-"£979797"» 

<tr class-"blue 1"» 

<td class="tdleft"> 运 营 商 </td> 

<td id="Frm CarrierName" name="Frm CarrierName" class="tdright"> 中 国电 信 </td> 
</tr> 

ktr class="white_1"> 

ktd class="tdleft"> 设 备 型 号 </td> 

[<td id="Frm ModelName" name-"Frm ModelName" class="tdright">F460</td> 

</tr> 

<tr class="blue_1"> 

ktd class="tdleft"> 设 备 标识 号 </td> 

[<td id="Frm SerialNumber” name-"Frm SerialNumber" class="tdright">4C09B4-453004C 


«td class="tdleft"> 硬 件 版 本 号 </td> 
[<td ide"Frm HardwareVer" name-"Frm HardwareVer" class="tdright">V3.0</td> 


1"> 
tdlefc"> 坎 件 版 本 号 </ca> 


<td id-"Frm SoftwareVer" name-"Frm SoftwareVer" class="tdright">V2.30.10P3T2hbH< ~ 


745 ”获取 数据 
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好 了 ， 创 建 浏览 器 获取 数据 的 过 程 已 经 运行 了 一 遍 ， 下 面 可 以 使 用 bs4 配合 Mechanize 
来 抓 取 光 猫 F460 的 数据 了 。 


Mechanize 实 站 一 : 获取 Modem 信息 


使 用 urllib2 也 可 以 比较 方便 地 处 理 那些 无 须 验 证 码 的 登录 页 面 ， 不 过 使 用 Mechanize 登 
录 更 加 方便 。 当 然 是 怎么 方便 怎么 做 。 下 面 以 抓 取 光 猫 F460 的 设置 页 面 为 例 ， 使 用 
Mechanize 配合 bs4 抓 取 光 猫 F460 的 数据 。 


7.3.1 获取 F460 数据 


启动 Eclipse， 新 建 PyDev 项 目 MechanizeAndBs4。 在 新 项 目 中 创建 一 个 PyDev Module 
文件 getF460Info.py。 


【示例 7-1】getF460Info.py 的 内 容 如 下 : 


#!/usr/bin/evn python 
#=*= coding; Utf=8 SS 


Created on 2016 年 8 月 25 日 


@author: hstking hst_king@hotmail.com 
ver 


Q0 0 - 0 HB WHR 


import mechanize 


10 from bs4 import BeautifulSoup 

11 from mylog import MyLog as mylog 

12 

13 

14 class F460Info (object): 

15 " "获取 光 猫 £460 的 信息 ''' 

16 def init (self): 

ahi self.url = 'http://192.168.1.1/' 

18 self.log - mylog() 

29 self.username = 'admin' 

20 self.password = '******' # 这 里 输入 光 猫 的 密码 
21 self.spider() 

22 

23 

24 def spider(self): 

25 responseContent = self.getResponseContent (self.url) 
26 if not responseContent: 

2 self.log.error('the response is null') 
28 exit() 
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29 soup = BeautifulSoup(responseContent, 'lxml') 


30 modemInfo = {} 

31 modemInfo['CarrierName'] = soup.find('td', 
attrs-('id':'Frm CarrierName']).get text().strip() 

a2 modemInfo['modelName'] = soup.find('td', 
attrs-('id':'Frm ModelName']).get text().strip() 

33 modemInfo['SerialNumber'] = soup.find('td', 
attrs-('id':'Frm SerialNumber']).get text().strip() 

34 modemInfo['HardwareVer'] = soup.find('td', 
attrs-('id':'Frm HardwareVer']).get text().strip() 

35 modemInfo['SoftwareVer'] = soup.find('td', 
attrs-('id':'Frm SoftwareVer']).get text().strip() 

36 modemInfo['BootVer'] = soup.find('td', 
attrs-('id':'Frm BootVer']).get text().strip() 

37 modemInfo['VerDate'] - soup.find('td', 
attrs-('id':'Frm VerDate']).get text().strip() 

38 

39 self.pipeline (modemInfo) 

40 

41 

42 def getResponseContent (self, url): 

43 self.log.info(u'begin create mechanize browser') 

44 br = mechanize.Browser() 

45 br.set_handle_equiv(True) 

46 br.set_handle_gzip(False) 

47 br.set handle redirect (True) 

48 br.set handle referer(True) 

49 br.set handle robots (False) 

50 br.set handle refresh (mechanize. http.HTTPRefreshProcessor(), 


max time-1) 
5d br.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.81 Safari/537.36')] 


52 

53 self.log.info(u'open url on mechanize browser') 
54 try: 

55 br.open (url) 

56 except: 

57 self.log.error(u'open %s failed' %url) 
58 return '' 

59 br.select form(nr-0) 

60 br.form['Username'] = self.username 

61 br.form['Password'] = self.password 

62 br.submit () 

63 

64 newUrl = url + 'template.gch' 

65 try: 

66 br.open (newUrl) 
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67 except: 


68 self.log.error(u'open $s failed' %newUrl) 
69 return '' 

70 else: 

71 return br.response().read() 

72 

m 

74 def pipeline(self, info): 

inui fileName = u'f460ModemInfo.txt'.encode('gbk') 
76 with open(fileName, 'w') as fp: 

TI for key in info.keys(): 

78 print ('%s Nt $s \n' %(key.encode('utf8'), 


info.get (key) .encode ('utf8'))) 


79 fp.write('%s Nt $s \n' $(key.encode('utf8'), 
info.get(key).encode('utf8'))) 

80 

81 

82 dz oane == T main fr 

83 fi = F460Info() 


然后 将 mylog.py 复制 到 MechanizeAndBs4 项 目下 ， 单 击 Eclipse 图 标 栏 的 运行 图 标 ， 
行 结果 如 图 7-16 所 示 。 


File Edit Source Refactoring Navigate Search Project Pydev Run Window Help 


HOMO Vet eas = Quick Access || g$ | & E4 
tS PyDev Package.. 30. 三 0O E) getF460Info 52 = [si 
eti? ] 
4 (b MechanizeAndBs4 
国 460Modeminfo.txt 4 


国 getF460Info.log 
E) getFaGOInfo.py 
IB) mylog.py 8 


6 @author: hstking hstkingéhot 


@ D:\Program Files python. 
a (gb YinYueTaiBS4 
[3] getTrendsMV.log 
P) getTrendsMV.py 
D mvTopUst.bxt 
E) mylog.py 
> [B] resource.py 
@ D:\Program Files\python 
1D baiduBS4 
宣 helloPython 
EJ moiveBS4 
1B qidian8Bs4 
GW test 
BJ. winningNumBS4 
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import mechanize 
from bs4 import BeautifulSoup 
from mylog import MyLog as mylog 


class FAGOInfo(object): 


[ (self): 
Self.url = ‘http 
self.log = mylog() 
self.username = “odain 
self.password = 
self.spider() 


E i 


© Console 5: T) fa&üModeminfo.t«t -记事 本 


文件 站“ KE) TO) 查看 (V) ANH) 
F460 
HardwareVer v3.0 

i 4C09B4—453004C09B45B4692 
v2. ileal 


«terminated» E:\save\sync\c 
2016-08-26 20:58:22,042 


2016-08-26 20:58:22,049 |SoftwareVer 


CarrierName 


Vi. 0. 014 
Te race 2012-07-06 11:59:11 


7-16 运行 getF460Info.py 


EREZTE, BAREIS BOUT ACE. 


7.3.2 ”代码 分 析 


KCB AR ALATA bs4 educ AD. HÆ Mechanize 模块 代替 了 urllib2 
模块 。 在 不 需要 输入 验证 码 的 情况 下 ，Mechanize 还 是 很 简单 方便 的 。 下 面 来 看 看 示例 7-1 这 
个 程序 中 的 代码 作用 。 

第 9~11 行 是 导入 模块 ， 很 标准 的 Python 程序 流程 。 

第 16-21 行 是 F460Info 类 的 解析 函数 ， 定 义 了 几 个 变量 。 在 C 语言 中 定义 这 种 类 似 的 变 
量 ， 一 般 都 是 在 文件 头 使 用 define. Python 中 没有 define， 放 在 这 里 正好 合适 ， 修 改 也 很 方 
便 。 

第 24~39 行 是 spider 类 函数 。 这 个 函数 的 作用 是 通过 BeautifulSoup 从 字符 串 中 过 滤 抓 取 
所 需 的 数据 。 在 使 用 soup 获取 数据 后 ， 都 使 用 strip 函数 去 除了 数据 左右 的 空格 、 回 车 等 不 
可 见 字符 。 

第 42~71 行 是 getResponseContent 类 函数 。 作 用 是 通过 Mechanize 模块 来 获取 目标 页 面 
的 返回 数据 。 第 44 行 创建 了 一 个 浏览 器 对 象 ， 第 45-51 行 都 是 对 浏览 器 对 象 的 设置 。 这 些 
设置 并 不 是 可 有 可 无 的 ， 在 打开 某 些 网 页 时 会 因为 这 些 设 置 的 不 同 而 得 到 不 同 的 结果 。 如 果 
没有 什么 特殊 要 求 ， 这 样 设置 就 可 以 了 。 

在 编写 程序 之 前 ， 已 经 知道 了 最 终 的 目标 网 页 是 http://192.168.1.1/template.gch， 可 在 第 
53~62 行 还 是 用 浏览 器 对 象 打开 了 http:/192.168.1.1。 这 是 因为 直接 打开 目标 页 面 是 得 不 到 任 
何 数据 的 ， 只 有 先 登 录 http:/192.168.1.1， 得 到 合法 的 Cookie， 然 后 利用 这 个 Cookie 才能 打 
开 目 标 页 面 。 

第 74~79 行 的 pipeline 类 函数 的 作用 是 处 理 最 终 的 结果 ， 将 结果 存 入 文件 。 这 里 直接 使 
用 open 打开 文件 ， 数 据 中 有 中 文字 符 ， 存 入 数据 时 必须 使 用 encode 将 字符 串 转换 成 合法 的 
数据 后 存 入 。 


7A , - 
/ .*9 Mechanize 实战 二 : 获取 音 悦 台 公 告 


上 节 讲 的 是 无 验证 码 登 录 息 取 数据 ， 本 节 接 着 演示 需要 验证 码 的 候 虫 。 有 些 网 站 或 论坛 
为 了 防止 暴力 破解 ， 在 登录 框 设置 了 一 个 验证 码 。 有 坚固 的 盾 就 有 锐利 的 矛 ， 目 前 针对 验证 
码 的 解决 方案 可 谓 是 千奇百怪 。 有 些 方案 的 确 有 效 ， 但 不 具备 普遍 性 。 考 虑 到 怜 虫 所 需要 的 
只 是 数据 ， 完 全 可 以 绕 过 验证 码 ， 直 接 使 用 Cookie 登录 就 可 以 了 。 


7.4.1 登录 原理 
以 音 悦 台 网 站 为 例 ， 先 来 看 看 音乐 台 的 登录 界面 ， 如 图 7-17 所 示 。 
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E747 音 悦 台 登录 界面 


这 个 网 站 的 登录 就 相当 麻烦 ， 需 要 拖 动 滑 块 到 合适 的 位 置 补 全 图 片 。 如 果 只 是 验证 码 还 
有 些 开 源 方案 可 供 选 择 。 这 种 验证 方式 ， 目 前 还 没有 发 现 可 以 模拟 登录 的 Python 程序 。 因 此 
干脆 选择 适应 性 最 广 的 方法 ， 直 接 利用 Cookie 获取 目标 页 面 数 据 。 

这 种 方法 的 好 处 在 于 不 管 有 没有 验证 码 ， 也 不 管 验证 码 有 多 么 复杂 ， 它 都 是 有 效 的 。 它 
利用 的 只 是 Cookie， 跟 用 户 名 、 密 码 、 验 证 码 都 没有 关系 。 缺 点 就 是 操作 比较 复杂 ， 还 有 就 
是 Cookie 的 生存 期 可 能 不 长 ， 过 一 段 时 间 就 得 重新 操作 一 遍 。 


7.4.2 ”获取 Cookie 的 方法 


获取 Cookie 的 方法 很 多 。 不 管 使 用 哪 种 方法 ， 首 先 都 得 登录 后 再 操作 。 打 开 登 录 页 面 ， 
输入 用 户 名 密码 ， 将 滑 块 拖 动 到 正确 的 位 置 后 登录 网 站 ， 如 图 7-18 所 示 。 


使 用 合作 账号 登录 (推荐 ) 


图 7-18 登录 网 站 
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登录 网 站 后 进入 目标 页 面 ， 如 图 7-19 所 示 。 


以 Se! E 
htto://Www.yinyuetai.com/apps/moble 


图 7-19 目标 页 面 

从 目标 页 面 可 以 获取 个 人 的 信件 、 站 内 公告 等 。 现 在 只 需要 从 目标 界面 获取 Cookie 就 可 
以 了 ， 其 他 的 数据 留 给 bs4 处 理 。 

获取 Cookie 的 方法 很 多 ， 以 下 只 列 出 比较 典型 的 几 种 。 

1 . JavaScript 获取 Cookie 

所 有 的 浏览 器 默认 情况 下 都 是 支持 JavaScript 的 (如 果 默 认 不 支持 ， 请 自行 修改 选 
项 ) 。 因 此 获取 Cookie 最 常见 到 的 方法 就 是 在 浏览 器 中 打开 目标 页 面 ， 然 后 在 地 址 栏 输 入 
JavaScript 命令 : 


javascript:document.write (document .cookie) 


执行 结果 如 图 7-20 所 示 。 


T QC (5iyinyuetai.com/news/bulletin 


yinyuetai uid-adw ocQyliz7; tid-ab ixycTllco; route-lfd: 
JSESSIONID-aaa ikHvv; autoPlayer-0; pushState=true; _ga=GAl. 2. 1470831739; 


searchSID-c52c5 396f9T8b89b; 
u inf-40878590802F » ^  mail.comi02normal userW02httpW3AN2FWZFi mg2. yytcdn. coma 


token-282f1bld3be65a24hKCEBl60wL2. la8ef. 0; token3=1da96C . ZEB1. 1GDEB1. AP. 1a8ef. 
CNZZDATA1330456-cnzz ei. E F%252Fwww. yinyuetai. com’252F%26nt i] 


p2-9cdef 86db 


图 7-20 JavaScript 获取 Cookie 


295 


这 种 方法 的 好 处 在 于 无 须 借 助 任何 工具 就 可 以 获取 Cookie fa, WERE Cookie 
信息 有 时 会 不 太 完 整 ， 缺 少 关键 的 几 项 。 有 的 网 站 用 这 种 方法 获取 的 Cookie 可 以 登录 ， 有 的 
不 行 ， 不 具备 普遍 性 ， 所 以 这 种 方法 不 可 取 。 


2. 从 浏览 器 记录 中 获取 Cookie 


浏览 器 在 登录 站 点 后 会 将 Cookie 信息 保存 到 文件 中 〈 这 里 以 Chrome 浏览 器 为 例 ) iX 
个 文件 的 位 置 在 C:\Users\WindowsLoginName\AppData\Local\Google\Chrome\User Data\Default 
目录 ， 文 件 名 为 Cookies， 如 图 7-21 所 示 。 


| « 本 地 磁盘 (C) » HP > king » AppData » Local » Google » Chrome » UserData » Default » HE E 
HO SEV) IAM WA) 
口 打开 共享 ”” bem 

Cookies Cookies-journal Current Session 
文件 文件 文件 
290 MB [E 31.7 KB 
Current Tabs DownloadMetadata Extension Cookie! 

pistor 文件 文件 文件 

bDrive — 209 KB J 755m | 7.00 KB 
Extension Cookies-journal Favicons Favicons-journal 
文件 文件 文件 

| o5 6.28 MB Ost 


FA 7-21 浏览 器 Cookies 文件 位 置 


这 个 Cookies 文件 实际 上 是 一 个 Sqlite3 的 数据 库 。Chrome 将 浏览 器 上 的 所 有 Cookie 都 
保存 到 这 个 数据 库 中 。 将 这 个 Cookies 文件 复制 一 个 备份 ， 名 为 Cookies.db (尽量 避免 直接 
对 系统 文件 操作 ) 。 在 该 目录 下 按 Shift 键 并 单 击 鼠 标 ， 在 弹出 的 菜单 中 选取 “在 此 处 打开 命 
令 窗口 ”， 如 图 7-22 所 示 。 

E) Bay IAM 帮助 (H) 


包含 到 库 中 Y 共享 " Boe 


Cookies 


EU 

排序 方式 (O) 
AREP) 
Luis] 
BENE)... 
RKP) 
FRAS) 


Google Profile Picture.png 
PNG 图 你 


7-22 ”从 目录 打开 cmd.exe 
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在 cmd.exe 中 打开 Python 环境 ， 连 接 到 Sqlite 3 数据 库 ， 并 读 出 与 yinyuetai.com 相关 的 
Cookie。 执 行 命 令 : 
import sqlite3 
conn = sqlite3.connect('Cookies.db') 
for row in conn.execute('select * from Cookies where host key like 
"$yinyuetai.com$"'): 
print row 


Ee 新 版 Chrome 支持 的 Sqlite 3 版 本 必须 是 3.8 以 上 的 ,而 默认 安装 的 Python 2.7 自 带 的 版 本 
是 3.6.21。 所 以 需要 到 sqlite3.org 上 下 载 Windows 版 本 的 新 的 sqlite3.dll 替换 。 如 果 不 愿 
意 替 换 ， 那 就 把 Cookie.db 文件 复制 上 传 到 Linux 处 理 。 目 前 Linux 自 带 的 Python 2.7 中 
自 带 的 版 本 是 3.8.7.1。 


A = 
执行 结果 如 图 7-23 所 示 。 
0, 0, 1, «read-write buffer ptr Ox7f0fbeSc56d8, size 262 at Ox7fOf ^ 


201, u'vchart.yinyuetai.com', u'CNZZ 7" 56", u'', u'/*, 
7000, 0, 0, 1311 77354200, 1, 1, 1, «read-write buffer ptr 0x7f0fbe 
, Size 310 at 0x7£0fbe4b0498>, 0) 
. 133: .90, u'vchart.yinyuetai.com', u'CNZ 7521', u'', u'/*, 
..000, 0, 0, 131i ' ^^^ 154200, 1, 1, 1, «read-write buffer ptr 0x7f0fbe 
. size 326 at 0x7f0fbeSb6960>, 0) 
(1311 27! i, u'www.yinyuetai.com', u'CNZZ. 456", u'', u'/', 1 ^0 
4912 10, 0, 0, 1311 74100, 1, 1, 1, «read-write buffer ptr Ox7f0fbeSdc 
c88, size 278 at Ox7fOfbeSdcc48», 0) 
85. 20, u'so.yinyuetai.com', u'CNZ 30456', u'', u'/', 13. 4 


200, 0, 0, 1311! 7^^':773100, 1, 1, 1, «read-write buffer ptr Ox7f0fbe4b04 
d8, size 310 at Ox7fOfbe4b0498»5, 0) 
88 .20, u'.yinyuetai.com', u'searchSID', u'', u'/', 0, 0, 0, 1: 
3100, 0, 0, 1, «read-write buffer ptr Ox7f0fbeScSéd&, size 262 at Ox7f0fbe 


.87 )0, u'www.yinyuetai.com', u'route', u'', u'/', 0, 0, 0, 13 = 
100, 0, 0, 1, «read-write buffer ptr 0x7f0fbe5c5448, size 262 at 0x7f0fbe5 


3021 20, u'v.yinyuetai.com', u'CNZZ2^ 30456", u'', u'/', 13 49 
"^00, 0, 0, 13116 1100, 1, 1, 1, «read-write buffer ptr Ox7fOfbe4bO4d| 

8, size 310 at Ox7f0fbe4b0498>, 0) 
>>> B - 


图 7-23 从 文件 中 获取 Cookie 
已 经 将 所 有 相关 的 Cookie 列 出 来 了 。 如 果 要 把 这 些 数据 转换 成 可 使 用 Cookie， 还 得 继 
续 将 其 中 的 encrypted_value 字段 解码 。 这 个 是 可 以 做 到 的 ， 得 安装 别 的 Python 模块 ， 相 当 不 
方便 。 使 用 这 种 方法 获取 Cookie， 好 处 是 所 有 的 Cookie 内 容 都 一 网 打 尽 ， 连 用 户 名 密码 都 
可 以 用 明文 解读 出 来 ， 坏处 则 是 要 把 这 些 数据 转换 成 Mechanize 可 用 的 Cookie 比较 麻烦 ， 还 
需要 安装 其 他 的 第 三 方 模块 ， 有 些 鸡肋 。 


3 . 利用 工具 获取 Cookie 


最 后 的 方法 就 是 利用 网 络 工具 ， 在 浏览 器 向 服务 器 发 送 数据 时 截取 这 些 数 据 ， 这 些 数据 
不 仅仅 包括 Cookie， 还 有 一 些 其 他 的 信息 ， 而 且 这 些 信息 Mechanize 还 都 用 得 上 ， 简 直 是 完 
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美 。 这 种 方法 与 Mechanize 相当 合拍 ， 都 是 往 服务 器 发 送 数据 ， 区 别 仅 在 于 一 个 是 浏览 器 发 
送 ， 一 个 是 Mechanize 模块 发 送 而 已 。 

截取 浏览 器 和 服务 器 之 间 的 网 络 工 具有 很 多 ， 比 如 Fiddler、Wireshark 和 Burp Suite， 也 
有 浏览 器 自 带 的 ， 比 如 Firefox 的 Httpfox 和 Chrome 开发 工具 。 建 议 直接 使 用 Chrome 的 开发 
TR, WR Chrome 开发 工具 截取 的 数据 不 能 使 用 〈 这 种 可 能 性 极 低 ) 或 者 没 使 用 Chrome 浏 
览 器 ， 那 就 使 用 Fiddler 或 Burp Suite。 


7.4.3 获取 Cookie 


1 . Chrome 开发 工具 获取 Cookie 


Chrome 浏览 器 自 带 的 开发 功能 相当 强大 ， 这 里 只 使 用 它 的 抓 包 功 能 。 在 浏览 器 中 打开 有 目 
标 网 站 并 登录 ， 进 入 目标 页 面 ， 按 F12 键 ， 打 开 Chrome 开发 工具 ， 如 图 7-24 所 示 。 


为 偶像 [47] ER- ARETE. SERA ois 


«.com/apps/mobile 


Shp Ver BE APSR S StaT VIE 


Regex E Hide data URLs (ff) xHR JS CSS Img Media Font Doc WS Manifest Other 


E GS FS $9 record the aiid 


图 7-24 Chrome 开发 工具 
在 Chrome 浏览 器 下 方 的 开发 工具 中 单 击 Network 标签 页 。 按 FS 键 ， 刷 新 页 面 ， 会 在 浏 
览 器 中 得 到 很 多 数据 ， 然 后 在 Filter 框 中 输入 目标 页 面 的 关键 词 bulletin， 找 到 发 送 请 求 的 
Request， 如 图 7-25 所 示 。 
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Q QD iyinyuetaicom/new 


http:/ ve yimyus 


8R7B Star Visi BERE A Fe 


图 7-25 找到 Request 
单 击 这 个 Name 为 bulletin 的 Request， 在 打开 的 界面 中 单 击 Headers 标签 ， 得 到 这 个 
Reqeust 的 Headers 〈 这 里 也 有 Cookies 标签 ， 但 它 的 表现 形式 是 表格 ， 另 外 所 需 的 数据 不 只 
是 Cookie, 还 有 User-Agent， 所 以 这 里 选择 Headers 标签 ) ， 如 图 7-26 所 示 。 


€ > © D iyinyuetaicomynew 


7-26 headers 


将 这 个 Request Headers 里 的 所 有 数据 都 复制 到 一 个 文本 文件 headersRaw.txt 中 备用 。 
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2 . Burp Suite 获取 Co 


okie 


如 果 不 喜 欢 Chrome 浏览 器 的 开发 工具 ， 或 者 没有 使 用 Chrome 浏览 器 ， 也 可 以 使 用 工具 


来 获取 Cookie。 这 里 选择 的 


是 Burp Suite 工具 。BrupSuite 工具 简单 方便 ， 跨 平台 运行 ， 功 能 


强大 。 如 果 要 完全 说 明 Burp Suite 的 其 他 功能 ， 恐 怕 得 一 本 厚 书 才 行 。 这 里 只 使 用 BrupSuite 
最 简单 的 抓 包 功 能 。 打 开 Burp Suite 工具 ， 选 择 Proxy 标签 下 的 Intercept 标签 ， 将 Intercept is 
on 按钮 激活 。 这 样 设置 将 截取 浏览 器 的 Request， 但 不 向 服务 器 发 送 ， 如 图 7-27 所 示 。 


Burp Suite 
Burp Intruder Repeater 


Window Help. 


[Target Spider | Scanner | hvder | Repeater | Sequencer | Decoder | comparer | Extender [opions | Aer || 


| intercept, f HTTP history | WebSockets history | Options | 


Forward 


Burp Suite 监控 的 端口 


Drop Intercept is on Action 


7-27 Burp Suite 


是 本 机 的 8080 端口 ， 所 以 必须 将 浏览 器 的 代理 端口 设置 为 


127.0.0.1:8080。 这 个 设置 根据 选择 的 浏览 器 不 同 而 选择 不 同 的 方法 设置 。 如 果 使 用 的 是 
Chrome， 建 议 使 用 SwitchySharp 插件 。 如 果 使 用 的 是 FireFox， 建 议 使 用 FoxyProxy。 至 于 其 他 


的 浏览 器 ， 就 干脆 将 系统 代 至 


设置 成 127.0.0.1， 然 后 将 所 有 浏览 器 设置 成 使 用 系统 代理 。 


打开 浏览 器 ， 设 置 好 代理 ， 然 后 刷新 登录 后 的 目标 网 页 。Burp Suite 将 得 到 数据 ， 


如 图 7-28 所 示 。 


j| Burp Suite Professional 


v1627- 


Burp Intruder Repeater 


‘Window Help 


[Tera [imma Se | Scanner | arc | Repeater | Seasencer | Decoder | Comparer [|Extender | Ontons | Ak 


[HTTP history | WebSockets history | Options | 


[LA] Request to http//i yinyuetai.com:80 [220.170.49 109] 


Action 
| Acton | 


NT 


tml, application/xml, text/xml, */* 
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fA 7-28 Burp Suite 获取 headers 


主要 是 获取 Cookie 和 User-Agent 的 数据 ， 然 后 将 这 个 Raw 标签 内 的 所 有 数据 复制 到 文 
本 文件 headersRaw.txt 中 备用 。 
这 两 种 获取 headersRaw.txt 文件 的 方法 任 选 一 种 即 可 ， 然 后 为 其 写 一 个 程序 ， 将 所 需 的 
数据 按照 所 需 的 格式 导出 来 。 打 开 Eclipse， 创 建 PyDev Project JU Fl getBulletin ， 将 
headersRaw.txt 文件 复制 到 getBulletin 项 目下 ， 并 在 项 目下 创建 一 个 名 为 getHeadersFromFile 
的 pyDev Modules。 


【示例 7-2] getHeadersFromFile.py 的 内 容 如 下 : 


1 #!/usr/bin/evn python 
Al SS coding; iS DE 


3 UU 


4 Created on 20164 9 H1H 


5 


6 Gauthor: hstking hst kingGhotmail.com 


muni 


8 
9 


10 def getHeaders (fileName) : 


11 
12 
13 
14 
15 
16 
aly} 
18 
19 
20 
21 
22 


headers = [] 
headerList = ['User-Agent', 'Cookie'] 
with open (fileName, 'r') as fp: 
for line in fp.readlines(): 
name, value = line.split(':', 1) 
if name in headerList: 
headers.append((name.strip(), value.strip())) 

return headers 


if name == ' main ': 


headers = getHeaders ('headersRaw.txt') 
print headers 


测试 getHeadersFromFile.py, ^it Eclipse 图 标 栏 的 运行 图 标 ， 执 行 结果 如 图 7-29 所 示 。 
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File Edit Source Refactoring Navigate Search Project Pydev Run Window Help 
tae ee Or AS yes wb ee ee Oe Quick Access |i] g$ | & (i) + 


I$ PyDev Package. = D B getTrendsMv B getHeaders i zn 


4 wh getBulletin 
getHeadersFromFile py 
D headersRaw.tt 
È DAProgram Files\pythor 


TUIS 


Wi beidoese def getHeaders (fileName) 
19 def getHeaders(fileame): 

Bj helloPython Pesati 
© MechanizeAndBs4 headerList = ['User-Agent', ‘Cookie 
3 moiveBs4 with open(fileName, 7°) as fp:| 

p» for line in fp.readlines(): 
G qidianBs4 name, value = line.split(':', 1) 
D test 16 if name in headerList: 
1 winningNumBS4 15 headers. append((name.strip(), value.strip())) 

return headers 


6 @author: hstking 


if _name_ == ， 天 


headers = getHeaders( ‘heoversh 
print headers 


© Console £2 


图 7-29 运行 getHeadersFromFile.py 


已 经 将 Cookie 和 User-Agent 过 滤 出 来 并 按照 格式 排列 好 了 ， 最 后 所 得 到 的 headers 是 一 
个 包含 了 2 个 元 组 的 列表 。 


7.4.4 使 用 Cookie 登录 获取 数据 

获取 音 悦 台 网 站 个 人 站 内 公告 的 充分 条 件 已 经 具备 了 。 下 面 开始 使 用 Mechanize 和 bs4 
来 获取 个 人 公告 数据 。 

打开 Eclipse， 进 入 刚 建 立 的 getBulletin 项 目 中 ， 将 以 前 项 目 中 使 用 的 mylog.py 复制 到 
getBulletin 项 目下 ， 并 在 项 目 中 创建 一 个 新 的 PyDev Module， 文 件 名 为 getYinyuetaiBulletin.py。 

【示例 7-3】getYinyuetaiBulletin.py 的 内 容 如 下 : 


#!/usr/bin/evn python 
#-*- coding: utf-8 -*- 


Created on 201649 H9 1H 


Gauthor: hstking hst_king@hotmail.com 


wo 0-00 50(QN 2 


import mechanize 
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10 
11 
12 
als) 
14 
15 
16 
eld 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 


from bs4 import BeautifulSoup 


from mylog import MyLog as mylog 


from getHeadersFromFile import getHeaders 


import codecs 


class Item(object): 
title - None 
content - None 


class GetBulletin (object): 
def init (self): 
self.url = 'http://i.yinyuetai.com/news/bulletin' 


self.log = mylog() 


self.headersFile = 'headersRaw.txt' 


self.outFile = 'bulletin.txt' 


self.spider() 


def getResponseContent (self, url): 


self.log.info('begin use mechanize module get response!) 


br = mechanize.Browser() 


br.set handle equiv (True) 


br.set handle redirect (True) 


br.set handle referer (True) 
br.set handle robots (False) 


br.set handle refresh (mechanize. http.HTTPRefreshProcessor(), 


max time-1) 


39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 


headers 


7 getHeaders (self.headersFile) 


br.addheaders - headers 


br.open (url) 


return 


br.response().read() 


def spider(self): 


self.log.info('beging run spider module') 


items 


Ex lal 


responseContent = self.getResponseContent (self.url) 


soup = 
tags = 


BeautifulSoup(responseContent, 'lxml') 
soup.find all('div', attrs-('class':'item info']) 


for tag in tags: 
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52 
53 


item = Item() 
item.title = tag.find('p', 


attrs-['class':'title']).get text ().strip() 


54 


item.content - tag.find('p', 


attrs-('class':'content']).get text().strip() 
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55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 


if 


items.append (item) 


self.pipelines (items) 


def pipelines (self, items): 
self.log.info('begin run pipeline function') 
with codecs.open(self.outFile, 'w', 'utf8') as fp: 
for item in items: 

fp.write (item.title + '\r\n') 
self.log.info (item.title) 
fp.write(item.content + '\r\n') 
self.log.info(item.content) 
fp.write('\r\n'*8) 


' 


. name | == ' main "': 


GB = GetBulletin() 


单 击 Eclipse 图 标 栏 的 运行 图 标 ， 执 行 结果 如 图 7-30 所 示 。 


Fle Edt Source Refactoring Navigate- Search Project Pydev Rum Window “Help 
ID" Ue SoC kk. hare eee ees Quac access] e | & (88) 4e 


I8 PyDev Package SE ao ap 
self.log.infe( bezin wodule*) 
= 7 item = [] 
4 d getBulletin a rezponzeContent = relf.getRerponzeContent(reLf.url) 
E) bulletintxt. P soup = BeautifulSoup(responseContent, 
B) getHeedersfromfile py tags = soup-find all (‘div', attrse{ 2 "item info'}) 
D getVinyuetaiBulletnniog fo eee 
P) getYinyuetaiBulletn.py item.title = tag.find( ip’, attrse{‘closs‘:'title"}) gett 
Bl headersRawixt item content = tag.find( 5 , attrs=( eee 
^ itens.append(item) 
B mylogpy — self. pipelines (items) 


7 
二 sake ee ee 


证 的 
zm SERRE RENT PEUT E T DA: 2. OAR Sh ET a 需要 重新 下 载 。 


http://w. yinyuetai. com/apps/mob: 


Nn 


8A7H StarTVIRSK BHBD, AP 实 可 演唱 会 StarTy 独 家 直 .. (2016-08-04 10:36:17) 
EE UM ee ERASER TSINAHR RAINE 
a MU EERIE Cc WF e iro eaters rduetii ct ü 
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已 经 成 功 地 获取 了 音 悦 台 的 个 人 公告 ， 如 图 7-31 所 示 。 


£ © D iyinyuetai.com/news/bulletin 


以 上 可 以 直接 $ 
http://www.yinyuetal.com/apps/mobile 


APE TSA RSS FEM CORE R08 
加 天 ~ 还 有 在 现场 也 看 不 到 的 台 前 E mue FMS getto vH 
D:http://feature.yinyuetai.com/bap 


7-3 目标 网 页 上 的 公告 


与 网 站 上 的 个 人 公告 比较 一 下 ， 完 全 一 样 ， 扑 虫 没有 问题 。Mechanize 使 用 Cookie Xf 
录 ， 除 了 Cookie 的 生存 期 问题 ， 算 是 一 个 非常 好 的 办 法 ， 要 比 urllib2 模块 模拟 浏览 器 方便 
得 多 。 


7.5 本 章 小 结 


Mechanize 不 是 疏 虫 ， 虽 不 是 得 到 爬虫 结果 的 充 要 条 件 ， 但 在 某 些 时 候 比 怜 虫 更 加 重 
要 。 毕 竞 候 虫 过 滤 的 来 源 数据 要 靠 Mechanize 来 获取 。 大 多 数 时 候 的 确 可 以 使 用 别 的 模块 来 
替代 Mechanize， 这 样 一 来 过 程 就 未 免 有 些 复杂 了 。 虽 然 怜 虫 程序 追求 的 只 是 结果 ， 过 程 是 
否 繁杂 对 结果 没有 影响 ， 但 能 用 简单 的 模块 解决 问题 就 没 必要 用 复杂 的 方法 。 
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= gz 


< Selenium 模 拟 浏 览 器 > 


Python 网 络 息 虫 中 最 麻烦 的 不 是 那些 需要 登录 才能 获取 数据 的 网 站 ， 而 是 那些 通过 
JavaScript 获取 数据 的 站 点 。Python 对 JavaScript 的 支持 不 太 好 。 想 用 Python 获取 网 站 中 
JavaScript 返回 的 数据 ， 唯 一 的 方法 就 是 模拟 浏览 器 了 。 这 个 模拟 浏览 器 跟 Mechanize 模块 稍 
有 不 同 ， 第 7 AMAR Mechanize 模块 并 不 支持 JavaScript， 所 以 这 里 需要 一 款 可 以 模拟 真实 
浏览 器 的 模块 Selenium 模块 。 


安装 Selenium 模块 


Selenium 是 一 套 完整 的 Web 应 用 程序 测试 系统 ， 包 含 了 测试 的 录制 (Selenium IDE) ~ 
编写 及 运行 (Selenium Remote Control) 和 测试 的 并 行 处 理 〈Selenium Grid) 。Selenium 的 核 
心 Selenium Core 基于 JsUnit， 完 全 由 JavaScript 编写 ， 因 此 可 运行 于 任何 支持 JavaScript 的 
浏览 器 上 


8.1.1 Windows 下 安装 Selenium 模块 
在 Windows 中 安装 Selenium 模块 还 是 采用 最 简单 的 pip 安装 ， 执 行 命令 : 


python -m pip install -U selenium 


执行 结果 如 图 8-1 所 示 。 


icrosoft Windows [他 本 6.1.76011 BH 


反 权 所 有 «c? 2009 Microsoft Corporation。 保 留 所 有 权利 。 


:indousssysten32ppython -n pip install -U selenium 
ollecting selenium 

Using cached https://pypi.doubanio.com/packages/2c/18/5ed4ece1869781c4420de798 
BFcb2F1bf6522a5d6F6bdBb634ce057f 4984/se leniun-3.8.0-py2. py3-none-any.whl 
Installing collected packages: selenium 
Successfully installed seleniun-3.8.8 


| C: Windows \system32> 


8-1. Windows 安装 Selenium 


Windows 中 安装 Selenium 完毕 ， 可 以 直接 使 用 了 。 


8.1.2 Linux 下 安装 Selenium 模块 
在 Linux 中 安装 软件 尽 可 能 地 使 用 apt-get， 这 样 便于 管理 软件 。 执 行 命令 : 
apt-get install Python3-selenium 
执行 结果 如 图 8-2 所 示 。 


a kingOdebian8: ~ 
king@debian8:~$ su 
密码 : 


chromedriver firefoxdriver 
下 列 【 新 】 软 件 包 将 被 安装 : 
python3-selenium 


升级 了 0 个 软件 包 ， 新 安装 了 1 KA, ER 0 个 软件 包 ， 有 139 个 软件 包 未 被 升 
级 


需要 下 载 67.3 kB 的 软件 包 。 

解压 缩 后 会 消耗 掉 490 xs 的 额外 空间 。 

获取 : 1 http://mirrors.163.com/debian/ jessie-backports/main python3-selenium al 
1 2,48.0+dfsgl-2~bpo8+1 [67.3 kB] 

FR 67.3 kB, HERE OW (101 kB/s) 

正在 选中 未 选择 的 软件 包 python3-selenium. 

(正在 读 取 数据 库 ... 系统 当前 共 安装 有 157346 个 文件 和 目录 。) 
正 准 备 解 包 .../python3-selenium 2.48.0+dfsg1-2~bpo8+1_all.deb ... 
正在 解 包 python3-selenium (2.48.0+dfsgl-2~bpo8+1) 

正在 设置 python3-selenium (2.48.0+dfsgi-2~bpo8+1) 

root@debian8: /home/king# 

root @debian8: /home/king? 


图 8-2 Linux 安装 Selenium 


Linux 中 安装 Selenium 完毕 。 


ua Æ Windows 中 安装 Selenium 必须 使 用 管理 员 权限 。 | 


3.2 浏览 器 选择 


在 编写 Python WER, EHE) Selenium 的 Webdriver。Selenium.Webdrive 不 可 能 
支持 所 有 的 浏览 器 ， 也 没 必要 支持 所 有 的 浏览 器 。 实 际 上 目前 流行 的 浏览 器 核心 也 就 是 那么 
几 种 。 先 看 看 Selenium.Webdriver 支持 哪 几 种 浏览 器 。 


8.2.1 Webdriver 支持 列表 


查看 模块 的 功能 ， 最 简单 也 是 最 方便 的 方法 就 是 直接 使 用 help 命令 。 打开 cmd.exe 工 
具 ， 执 行 命令 : 


python 
from selenium import webdriver 


help (webdriver) 
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# under the License. 


PACKAGE CONTENTS 
android (package? 
blackberry (package 
chrome (package 
common «package? 
edge <package> 
firefox (package? 
ie package? 

opera (package? 
phantomjs package? 
remote (package) 
safari (package? 
support (package? 
webkitgtk (package? 


8-3 Webdriver 支持 列表 


在 以 上 列表 中 ，android 和 blackberry 是 移动 端的 浏览 器 ， 可 以 先 去 掉 。 移 动 端的 浏览 器 
虽然 也 支持 JavaScript， 但 与 PC 端的 浏览 器 根本 是 两 回 事 。common 和 support 也 可 以 先 去 
掉 ， 剩 下 的 只 有 Chrome、Edge、Firefox、IE、Opera、Phantomjs 和 Safari 了 。Chrome、 
Dege, Firefox. IE. Opera. Safari 比较 常见 ， 而 PhantomJS 则 有 些 名 不 见 经 传 。 

PhantomJS 是 一 个 基于 WebKit 的 服务 器 端 JavaScript API。 它 全 面 支持 Web 而 不 需 浏览 
器 支持 ， 其 快速 、 原 生 支持 各 种 Web 标准 : DOM 处 理 、CSS 选择 器 、JSON、Canvas 和 
SVG. PhantomJS 可 以 用 于 页 面 自动 化 、 网 络 监测 、 网 页 截屏 以 及 无 界面 测试 等 。 

无 界面 意味 着 开销 小 ， 也 意味 着 速度 快 。 网 上 有 牛人 测试 过 ， 使 用 Selenium 调用 上 面 的 
浏览 器 ， 速 度 前 三 分 别 是 PhantomJS、Chrome 和 IE (remote 调用 HtmlUnit 速度 才 是 最 快 
的 ， 但 HtmlUnit 对 JavaScript 的 支持 不 太 好 ) ,开销 小 、 速 度 快 对 JavaScript 的 支持 也 不 
错 。 唯 一 的 缺点 是 没有 GUI， 但 在 服务 器 下 运行 程序 时 ， 这 又 成 了 优点 。 所 以 无 须 犹 列 ， 就 
选 PhantomJS |. Seb, YET JavaScript 才能 返回 数据 的 网 站 时 ， 没 有 比 Selenium 和 
PhantomJS 更 适合 的 组 合 了 。 


8.2.2 Windows 下 安装 PhantomJS 


PhantomJS 的 官网 主页 是 http://phantomjs.org/。 在 浏览 器 中 打开 主页 ， 单 击 Download 
V2.1 按钮 进入 下 载 页 面 ， 如 图 8-4 所 示 。 
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3 C [C phantomjsorg 


SOURCECODE DOCUMENTATION API 


Full web stack 
No browser required 


Phantoms is 
native support f 
and SVG. 


FE et started 


Community: — (£] Read the release notes B] join the mailing list 


Phantoms is an optimal solution 


HEADLESS WEBSITE TESTING SCREEN CAPTURE PAGE AUTOMATION 


Programmatically capture web Access and manipulate webpages Monit 


图 8-4 PhantomJS 官网 主页 
进入 下 载 页 面 后 ， 选 择 Windows 版 本 的 PhantomJS 下 载 软件 ， 如 图 8-5 所 示 。 


€ [d phantomjs.org/download.html 


SOURCE CODE DOCUMENTA 


Please take a moment to improve this document with anything that could be usefull 


Documentation Downla 


Get Started 


0 Download Note There is no need to ask when a binary package f| 
© Build packagers are fully aware of every release and they gi 
D Releases available. 

D Release Names 

5 REPL Windows 


Learn Download phantomjs-2.1.1-windows.zip (17.4 MB) al 


The executable p 


is ready to use. 
D Screen Capture 
» Network Monitoring Note: For this static build, the binary is self-containe| 


D Page Automation 
D [nter Process Communicat 
D nd Li 


Get Help 


Download phantomjs-2.1.1-macosx.zip (16.4 MB) and 


D Troubleshooting 
Q 


图 8-5 F Windows 版 本 PhantomJS 


因为 未 知 的 原因 ， 直 接 用 浏览 器 下 载 PhantomJS 速度 极 慢 。 有 时 根本 就 没 反 应 ， 建 议 使 
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用 迅雷 下 载 PhantomJS. 
度 就 很 快 了 。 

下 载 完 成 后 ， 解 压 压 缩 包 ， 然 后 将 exe 文件 加 入 系统 路 径 中 就 可 以 了 。 重 新 设置 系统 路 
径 是 很 麻烦 的 事情 。 还 记得 安装 Python 的 过 程 吗 ? 安装 程序 已 自动 将 Python 的 路 径 加 入 到 
系统 路 径 中 了 ， 反 正 PhantomJS 也 是 配合 Python 使 用 的 ， 直 接 将 解压 后 的 PhtomJS.exe 复制 
到 Python 的 目录 中 就 可 以 了 ， 如 图 8-6 所 示 。 


迅雷 上 车 有 用 户 曾 下 载 过 PhantomJS， 后 面 的 迅雷 用 户 再 次 下 载 速 


phantomjs.exe 


A 


PhantomJS is a headless W 


PhantomJS 


大 小 : 


17.7 MB 


图 8-6 Windows 设置 PhantomJS 环境 


在 Python 环境 中 测试 一 下 ， 如 图 8-7 所 示 。 


ng>python 


‘eb. 


python.exe python3.dll 
p: "ERU 
Python Software Foundation S| python Core 
python36.dll pythonw.exe 
©; | 3641501013 Python 
ini] (thon Core e Python Software Foundation - 
修改 日 期: 2016/1/25 6:21 创建 日 期: 2017/5/11 23:46 


Kv3.6.4:d48eceb, Dec 19 28017, 86:54:40» [MSC v.1988 64 bit (RMD645] 


8-7 Windows 中 测试 PhantomJS 环境 


Windows 下 的 PhantomJS 环境 已 配置 好 ， 可 以 直接 使 用 了 。 


8.2.3 Linux 下 安装 PhantomJS 


还 是 打开 PhantomJS 官网 的 下 载 页 面 ， 
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选择 合适 的 版 本 ， 使 用 迅 


ype_ "help", "copyright", "credits" or "license" for more information. 
from selenium import webdriver 
driver = webdriver.PhantonJS C) 


雷 下 载 ， 如 图 8-8 所 示 。 


第 8 章 Selenium 模拟 浏览 器 


L phantomjs.org/diownload.htm! 


other libraries. 


Examples 

Best Practices Linux 64-bit 
Tips and Tricks 

Supported Web Standards 

Buzz 

Who's using Phantom|S? 

Related Projects 


Contribute 


Contributing 
Source Code 
Test Sui 


D 
B 
5 
D Release Preparatio Download phantomjs-2.1.1-linux-i686.tar.bz2 (23.0 MB) and extract 
D 


Crash Reporting 
Bug Reporting 


Note: For this static build, the binary is self-contained. There is no r 
WebKit. or any other libraries. It however still relies on Fontconfig (t 
libfontcenfig, depending on the distribution). The system must 
GLIBC 2. 


 king@debian: ~ 


Usinc username "king". 
thenticating with public key "imported-openssh-key" 


[The programs included with the Debian GNU/Linux system are f: 
the exact distribution terms for each program are described 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the ej 
permitted by applicable li 
126 2016 from 192.168.2.99 


1 SMP Debian 3.16.7-ckt25-2+debt 


图 8-8 F$ Linux 版 本 PhantomJS 


将 下 载 好 的 压缩 文件 上 传 到 Linux 后 解压 缩 ， 然 后 将 可 执行 文件 复制 到 系统 路 径 
/usr/local/bin XRF (Linux 的 系统 路 径 有 很 多 ， 随 意 选 一 个 即 可 ，〉。 打 开 Putty， 连 接 到 
Linux 上 ， 执 行 命令 : 


tar jxvf phantomjs-2.1.1-linux-x86_64.tar.bz2 -C /usr/local/ 
ln -s phantomjs-2.1.1-linux-x86 64/bin/phantomjs /usr/local/bin/phantomjs 
ls -1 /usr/local/bin/ 


执行 结果 如 图 8-9 所 示 。 


oP king@debians: ~ - n x 
Iphantomjs-2.1.1-1inux-x86 64/examples/features.js ^ 
|phantomjs-2.1.1-1inux-x86 64/examples/netsniff.js 
Iphantomjs-2.1.1-1inux-x86 64/examples/walk through frames.js 
1.1-linux-x86 64/examples/printheaderfooter.js 
1.1-linux-x86 64/examples/responsive-screenshot.js 
|phantomjs-2.1.1-1inux-x86 64/examples/countdown.js 
Iphantomjs-2.1.1-1inux-x86 64/examples/detectsniff.js 
Iphantomjs-2.1.1-1inux-x86 64/examples/simpleserver.js 
[phantomjs-2.1.1-1inux-x86 64/examples/postjson.js 
phantomjs-2.1.1-1inux-x86 64/examples/run-jasmine2.js 
|phantomjs-2.1.1-1inux-x86 64/examples/run-jasmine.js 
Iphantom 1.1-1inux-x86 64/README.md 
|phantomjs-2.1.1-1inux-x86 64/LICENSE.BSD 
Iphantomjs-2.1.1-1inux-x86 64/bin/ 
Iphantomjs-2.1.1-1inux-x86 64/bin/phantomjs 
Iphantomjs-2.1.1-1inux-x86 64/third-party.txt 
Iphantomjs-2.1.1-1inux-x86 64/ChangeLog 


root@debian8:/home/king# In -s /usr/local/phantomjs-2.1.1-1inux-x86 64/bin/phant 
lomjs /usr/local/bin/phantomjs 

root@debian8:/home/king# exit 

lexit 

king&debianB:-S 1s -1 /usr/local/bin/phantomjs 

Lrwxrwxrwx 1 root staff 53 1H 27 18:52 /usr/local/bin/phantomjs -> /usr/local/ 
phantomis-2.1.1-1inux-x86 64/bin/phantomjs 

kingédebianB:-5 M * 


8-9 Linux 中 设置 PhantomJS 环境 
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在 Python 环境 中 测试 一 下 ， 执 行 命令 : 
Python3 
from selenium import webdriver 


derver = webdriver.PhantomJdS() 


执行 结果 如 图 8-10 所 示 。 


10:45:20) 


or "license" for more information. 


图 8-10 Linux 中 测试 PhantomJS 环境 
Linux 下 的 PhantomJS 环境 已 配置 好 ， 可 以 直接 使 用 了 。 


Selenium&PhantomJS 抓 取 数据 


Selenium 和 PhantomJS 配合 ， 可 以 模拟 浏览 器 获取 包括 JavaScript 的 数据 。 问 题 是 本 文 
是 讲 息 虫 的 ， 现 在 不 单 要 获取 网 站 数据 ， 还 需要 过 滤 出 “有 效 数据 ” 才 行 。 这 里 就 不 用 麻烦 
bs4 了 【实际 上 非 要 用 bs4 也 不 是 不 可 以 ) Selenium. 本 身 就 带 有 一 套 自己 的 定位 过 滤 函 


数 。 它 可 以 很 方便 地 从 网 站 返回 的 数据 中 过 滤 出 所 需 的 “有 效 数据 ”。 


8.3.1 获取 百度 搜索 结果 


还 是 那 句 老话 ， 想 知道 Python 模块 最 详细 的 用 法 ， 直 接 用 help 函数 就 可 以 了 。 鉴 于 
Selenium.Webdriver 的 help 文件 太 大 ， 分 屏 显 示 又 不 那么 方便 ， 干 脆 将 帮助 文件 保存 到 文件 


中 慢 慢 查看 。 执 行 命令 : 


python 

from selenium import webdriver 
import sys 

browser = webdriver.PhantomJUS () 
out = sys.stdout 

sys.stdout = open(‘browserHelp.txt’, ‘w’) 
help (browser) 
sys.stdout.close() 

sys.stdout = out 

browser.quit () 

exit () 


Gm 一 定 要 加 上 browser.quit), | cmd.exe 在 执行 exit 时 会 无 法 退出 。 
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执行 结果 如 图 8-11 所 示 。 


Microsoft Windows [jp 


版 权 所 有 <c> 2009 Microsoft Hac NN 保留 所 有 权利 。 


:\Users\king>python 
Python 3.6.4 (v3.6.4:d48eceb, Dec 19 2017, 06:54:40) [MSC v.1908 64 bit CAMD64)] 
on vin32 
Type "help", "copyright", "credits" or "license" for more information. 
>> fron selenium inport webdriver 
>>> import sys 
>>> browser = webdriver.PhantonJS<> 
>> out = sys.stdout 
D»? sys.stdout = open’ browserHelp.txt’. 'w') 
>> help¢browser> 
>> sys.stdout.closeO) 
>> sys.stdout = out 
和 > browser quit 
22 exito 


司 browserHelp.tx - 记事 本 
文件 (站 ABE) 格式 (O) BBV) WDH) 
Help on WebDriver in module selenium. webdriver. phantomjs. webdriver object: 


class WebDriver (selenium. webdriver. remote. webdriver. WebDriver) 
Wrapper to communicate with PhantomJS through Ghostdriver. 


You will need to follow all the directions here: 
https://github. com/detro/ghostdriver 


Method resolution order: 
WebDriver 
selenium. webdriver. remote. webdriver. WebDriver 
builtins. object 


Methods defined here: 


图 8-11 获取 help 文件 


想 获取 “有 效 信息 ”， 第 一 步 当然 是 网 站 获取 返回 数据 ， 第 二 步 就 是 定位 “有 效 数据 ” 
的 位 置 ， 第 三 步 就 是 从 定位 中 获取 “有 效 数据 ”。 

以 百度 搜索 为 例 ， 使 用 百度 搜索 “Python Selenium”， 并 保存 第 一 页 搜索 结果 的 标题 和 
链接 。 从 服务 器 返回 数据 ， 由 PhantomJS 负责 ， 获 取 返 回 的 数据 用 Selenium.Webdriver 自 带 
的 方法 page_source， 例 如 : 

from selenium import webdriver 

browser = webdriver.PhantomdsS () 


browser.get (URL) 
html = browser.page_source 


有 两 种 方法 可 以 得 到 搜索 结果 页 面 。 第 一 种 ， 百 度 主 页 还 是 使 用 get 方式 上 传 request。 
这 里 可 以 先 找 一 个 浏览 器 ， 打 开 百 度 后 搜索 关键 词 。 再 把 返回 来 的 搜索 结果 的 URL 保存 下 来 
用 Selenium&PhantomJS 打开 ， 再 获取 返回 的 数据 。 第 二 种 ， 直 接 用 Selenium&PhantomJS 打 
开 百 度 的 主页 ， 然 后 模拟 搜索 关键 词 。 直 接 从 Selenium&PhantomJS 中 返回 数据 。 这 里 使 用 
第 二 种 方法 ， 可 以 很 清楚 地 看 到 Selenium&PhantomJS 获取 数据 的 过 程 。 

第 一 步 获取 搜索 结果 。 打 开 cmd.exe， 准 备 好 环境 。 执 行 命令 : 


python 
from selenium import webdriver 


t 
E 


browser = webdriver.PhantomdsS () 
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browser.get (‘https://www.baidu.com’ ) 
browser.implicitly wait (10) 


执行 结果 如 图 8-12 所 示 。 


0 E 


:\sers\king>python 
Python 3.6.4 (v3.6.4:d48eceb, Dec 19 2017, 06:54:40) [MSC v.1988 64 bit CAMD64)] 
on win32 
ype "help", "copyright", "credits" or "license" for more information. 
>>> from selenium import webdriver 
>>> browser = uebdriver.PhantonJS C) 
>>> brouser. get¢’ https ://www.baidu.con') 
>>>| browser. implicitly wait<18> 


>>> 


8-12 模拟 百度 搜索 


这 里 要 关注 一 个 函数 implicitly_wait(). (HA Selenium&PhantomJS 最 大 的 优势 是 支持 
JavaScript， 而 PhantomJS 浏览 器 解释 JavaScript 是 需要 时 间 的 。 这 个 时 间 是 多 少 并 不 好 确 
定 ， 当 然 可 以 用 time.sleep0 强 行 休 眼 等待 一 个 固定 时 间 。 可 这 个 固定 的 时 间 定 长 了 ， 浪 费时 
间 ; 定 短 了 ， 又 没 能 完整 地 解释 JavaScript. Implicitly wait 函数 则 完美 地 解决 了 这 个 问题 ， 
给 implicitly wait 一 个 时 间 参 数 。Implicitly_wait 会 智能 等 待 ， 只 要 解释 完成 了 就 进行 下 一 
步 ， 完 全 没有 浪费 时 间 。 下 面 从 网 页 的 框架 中 选取 表单 框 ， 并 输入 搜索 的 关键 词 ， 完 成 搜索 
的 过 程 。 


8.3.2 ”获取 搜索 结果 

第 二 步 定位 表单 框架 或 “有 效 数据 ”位 置 ， 可 以 用 import 导入 bs4 来 完成 ， 也 可 以 用 
Selenium 本 身 自 带 的 函数 来 完成 。Selenium 本 身 给 出 了 18 个 函数 ， 总 共 8 种 方法 从 返回 数 
据 中 定位 “有 效 数据 ”位 置 。 这 些 函数 分 别 是 : 


find element (self, by-'id', value-None) 

find element by class name(self, name) 

find element by css selector(self, css selector) 
find element by id(self, id ) 

find element by link text(self, link text) 

find element by name(self, name) 

find element by partial link text(self, link text) 
find element by tag name(self, name) 

find element by xpath(self, xpath) 


find elements(self, by-'id', value-None) 

find elements by class name(self, name) 

find elements by css selector(self, css selector) 
find elements by id(self, id ) 

find elements by link text(self, text) 
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find_elements_by name(self, name) 

find elements by partial link text(self, link text) 
find elements by tag name(self, name) 

find elements by xpath(self, xpath) 


这 18 个 函数 前 面 的 9 个 带 element 的 函数 将 返回 第 一 个 符合 参数 要 求 的 element， 后 面 9 
个 带 elements 的 函数 将 返回 一 个 列表 ， 列 表 中 包含 所 有 符合 参数 要 求 的 element。 命 名 是 9 个 
函数 ， 为 什么 只 有 8 种 方法 呢 ? 上 面 函 数 中 ， 不 带 by 的 函数 ， 配 合 参数 可 以 替代 其 他 的 函 
数 。 例 如 : find_element(by='id'，value='abc) 就 可 以 替代 find_element_by_id(‘abc'). [rl FE, 
find_elements(by='id', value='abc) 也 可 以 替代 find_elements_by_id(‘abc'). 

这 8 种 定位 方法 组 合 应 用 ， 灵 活 配 合 ， 可 以 获取 定位 数据 中 的 任何 位 置 。 在 使 用 浏览 器 
请 求 数据 时 ， 用 find element by name. find element by class name. find element by id. 
find element by tag name 会 比较 方便 。 一 般 的 表单 、 元 素 都 会 有 name. class. id, KEE 
位 会 比较 方便 。 如 果 仅 仅 是 为 了 获取 “有 效 数 据 ” 的 位 置 ， 还 是 find_element_by_xpath 和 
find element by css 比较 方便 。 强 烈 推荐 find_element_by_xpath， 真 的 是 超级 方便 。 

先 定 位 文本 框 ， 输 入 搜索 关键 词 并 向 服务 器 发 送 数据 。 在 Chrome 中 打开 百度 主页 ， 查 
看 源 代码 页 面 (如果 想 全 程 无 GUI， 也 可 以 直接 在 Selenium 中 用 page source 获取 页 面 代 
码 ， 保 存 后 再 慢 慢 搜索 ， 不 过 这 样 就 比较 麻烦 了 ) 。 在 源 代码 页 面 搜索 type=text， 也 就 是 查 
找 页 面 使 用 的 文本 框 ， 搜 索 结 果 如 图 8-13 所 示 。 


Q B view source:https:/Avww.baidu.com 
id-s_user_setting_menu class-"s-isindex-wrap s-ust 
href=//wwm. baidu. con/gaoji /preferen: 
href=//wm. baidu. com/gaoji/advanced. target- blank) MAH: 
1/ fA. bai da. con/ny/history?fror ank? Wank < </a> <a clas: 
EURIA </a> </div: 


I 


ss=cl ear? /di 
fn clesc-s form 


x E 
» EAER” onmousedown= 


^ ></map> </div><a href-/ id-result logo onmousedown=“return 


^ alt= "到 百度 


k/epan><input type 
.£900002 474" ><input 
len name-rsv bp value= 


图 8-13 ”搜索 文本 框 位 置 


从 图 8-13 可 以 看 出 文本 框 里 有 class, name, id 属性 ， 可 以 使 用 find element by class name, 
find element by id, find element by name 来 定位 。 执 行 命令 : 


textElement = browser.find element by class name('s ipt') 
textElement - browser.find element by id('kw') 
textElement = browser.find element by name('wd') # 这 三 个 任 选 其 一 都 可 以 


textElement.clear() 
textElement.send keys('Python selenium') 
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到 Chorme 中 百度 源 代 码 页 面 ， 搜 索 type=submit， 定 位 submit 按键 位 置 ， 如 图 8-14 


e [B v view-source:https://www.baidu.com arle O 9 


<div div> div c-asscclearsU/divGliv IF} 
head wrapper s—itle-img "> <div id-s fm class-s form «dy c] ype=submid 
id-lg class=s-p-top><img id-s lg img 
Les. bai du. com/1mg/2016 9 lülogo 9c310a313fb6768260566c635f8f3996, gif" width=270 height=129 
^ > 《map name-mp id=s_mp><area style-"cursor:pointer;outline:none;^ shape-rect 
" " ^ hre: mms. bai du. cr Jwd-NEGXOSX99XEOXPONOPEEDNDANG2&Rtn-SE pshlc i: e £5la 
blank s-yle=”outline:none;”-itle=” 为 孩子 ， 绘 出 新 菇 界 ” onmousedom-"return 
ns_c({’ fw :'behs'," tab’ :’ bdlogo’})” ></map> </div><a hrez-/ id-result logo onmousedown-"return 
cCC fm :’ tab," zab’ :’ logo’})”> <img 
src="https: //ss0. bdstatic. com/5aylb ich O230dC£/stat ic/superman/ii ” alt "FIRES 
页 ”title=“ 到 百度 首页 "》 </a><form name=f id-form actio 
it="javascript:F. call ( ps/sug' ,' pssubmit’ );”><span :d=s_km_wrap class=“bg s_ipt_wr”><input 
ipt name=wd id-kw maxlength=100 autocomlete=off></span><input type=hidden 
><input type=hidden name=rsv_iqid valuez"0xdfd62f9000024cT4^»input type=hidden 
><input type=hi a inpu- dden name=rev_bp value=0><input 
><input type=hidden name=rql ang 
Wr be” 
ame span 


sm1&,xi&|^[v]x| ^ 


<li><a hrefz"javascript:;" name=ime_cl>[4] </a></ul ></span><span clas: anes aoe. (i 
</form> </div> </div> <div id-w a c_ass=toindex href=/> 百 度 首页 </a><span class=toindex></span><a 
idcimsg href="h- tp: m baidu. com/#t” onmoused “return 

user c( fm" ^1 ]) ”> 消息 </a><a href="javascript: ;” name=tj_settingicon 
class=pPR HG ERE con c-icon-triangle-dom". ></i></a><a_href=http://i, baidu. com id-user 


图 8-14 搜索 submit 按键 


从 图 8-14 可 看 出 ，submit 按键 有 id, class 属性 ， 可 以 用 find element by class name 和 
find element by id 定位 。 执 行 命令 : 
submitElement = browser.find_element_by class_name('btn self-btn bg s_btn') 


submitElement = browser.find element by id('su') iX fik—4 
submitElement.click() 


print browser.title 


执行 结果 如 图 8-15 所 示 。 


licrosoft Windows [有 村 


RAUMA <c> 2009 Microsoft Corporation. 保留 所 有 权利 。 


:sers \king>python 
Python 2.7.11 (v2.7.11:6d1b6a68f775, Dec 5 2015, 20:48:36) [MSC v.1588 64 bit < 


or "license" for more information. 
from selenium inport vebdriver 

browser = webdriver.PhantonJSC? 

browser. get(’ https ://uw.baidu.con') 

browser. implicitly vait(1e> 


textElement = browser.find element by class nane('s ipt' 
|textElenent.send keysC'Python seleniun’ > 


8-15 ”获取 搜索 结果 
此 时 browser 已 经 获取 搜索 的 结果 。 
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8.8.3 ”获取 有 效 数 据 位 置 

第 三 步 获 取 “ 有 效 数据 ”位 置 或 者 说 是 element。 先 定位 搜索 结果 的 标题 和 链接 ， 再 回 到 
Chrome 浏览 器 ， 在 百度 中 搜索 python selenium ， 在 搜索 结果 页 面 中 查看 源 代码 。 因 为 
Chrome 浏览 器 和 PhantomJS 浏览 器 返回 的 结果 可 能 有 所 不 同 ， 这 里 只 需要 知道 返回 结果 的 大 
臻 结构， 不 需要 完全 一 致 。Chrome 浏览 器 返回 结果 如 图 8-16 所 示 。 


€ > C 目 https//wwwbaiducomyszw 


Baltes python selenium 


Secun Python Brdngs latest 1 
Elements 5 Wals 6. Page Objects 
hmps /selonlum python road 


webove trom sclenum webariver common keys import Keys diver = 
v ge CH ims python or) asset 
”下 


solonium + python 白 动 化 测试 环境 搭建 - S10 - 182 
20139754298 - # Fsdloniumet EMI 8.5] 

ADL RILA Ep ton JUS 

wa erbloge comiinngja - - BIERS 


图 8-16 Chrome 浏览 器 搜索 结果 


打开 源 代码 页 面 搜索 第 一 个 结果 的 标题 Selenium with Python， 如 图 8-17 所 示 。 


© | B view-source:https://www.baidu.com/s?wd=python%20selenium&usv spt=1EQ vv d$ O 49 œ 


Y Selenium with Python 


href = "http://www. bai du. com/link?url=! N2Zv2Gbm-PeGppZdZCUOF 61 JES jv20US-LAWBdShKNpc JEzD-- 
klykdaXZW9xGsj16bf312BrCR_pcHZrUeX_” 


target="_blank” 


>em>Selenium</em> with <emPython</em> 一 <em>Selenium</em> <em>Python</em> Bindings 2 ... </a> 
</n3><div class-"m RALA PEE TROC IR, WE enbsp;<a href-"http://mm. bai du. com/1ink? 

url -AjerUBZhxQuOxVbO2yge9F yZi RQBSK -JG-L2Xy 2BBuG 1 udS tXOVHO j 202hCXUT 1 VZDq53v6xYcP. FA- 
YbAfNj6ybxKeRl6z]WTRSM4Sui qs6-gd3vZ0RQ0O tcyAZXf8DC xykDGdKDyT9coxLdlhtR4LZcGF2- 

pNLSLOhy. TCHO3KPmsxb£IWm65r0Sm3eoxgDRZfNBQ5YYDUSsirfZK" target="_blank” class-"m OWHiEIL i /2»4/div^ 
<div class="c-abstract c-abstract-en”><emSeleniumć/em> <em>Python(/em> Bindings latest 1. 
Installation 2. Getting Started 3. Navigating 4. Locating Elements 5. Waits 6. Page Objects 7. 
WebDriver API 8...</div><div class="f13"><a target="_blank” href-"http://eww. baidu. com/link? 

url=] N2ZY20bmt PdppZ d2CUOF 61vJE3jvzOUS, CL ASine iE lyk dN 1 6b 51 Rr CR. cele 


g: ttp: aldu. 1 boy 
LANBASHKNpe E2ND-ki yd Zh9 Gej16bE 12ErCR a Xa class=” c-tip-i i clase” c-icon c-icon- 
triangle-down-g”></i></a></div><span clas: “icons-outer”><span cla: icons-inner”></span> 


图 8-17 ”搜索 结果 定位 
在 这 里 发 现 了 一 个 比较 特别 的 属性 class="c-tools"， 在 代码 中 查找 这 个 属性 ， 如 图 8-18 所 示 。 
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Q | B view-source:https://www.baidu.com/s?wd=python%20selenium&rsv_spt=1Q  & O 4$ oo 


no Getting Started — <em>Selenium</em> <em>Python</ 


class=“m) 查 看 此 网 页 的 中 文 翻译 ， 请 点 击 &nbsp; <a href-"http://w 
url=, NETITrwE20sabalcBToRAz5N57WTxgzpFTe0sFHDIOLe6Ddl11757APTPohuNRTOSqCVHIKDDnOBJyc8ZXa7iSZ12RZTEAcaDige 


+ShQDnCVU9U7 cXLXJF ¢5aXcB7Z0k8VnFNPJ 8CXpCxlne-3fYze-aieJ- 
9tab2ewJOYi KKERGZvVSmuHA_ozu_NPnR1D2dI deSdeAShfXBkOy_q5H2zNsGJ&hCqAtSatfUbkhDh?” target="_blank” 
class-"n' ORB EIL BI </a></div><div class-"c-abstract c-abstract-en”> from <em>selenium¢/em> import 
webdriver from <em>selenium</em>.webdriver. common. keys import Keys driver = webdriver.Firefox( 
driver. get (&quot; ht tp: //omm. <em>python</em>. org&quot;) assert... </div><div class="f13"><a 
" blank" href="http: //emw. bai du. com/link? 
o T9yPKbhl pi JSLvirTLZi L1 yyeO6. JrfeOSzInRUntDrT 3nlAzshfnlZqcsGBbqRIKSmyrSaqfS9Q]GlragnaDloshw 
style="text-decoration:none; ”><b>seleni u -一 一 db à 

i FE tools : 20728587 4081466813 : 2" data-tools- 
Selenium y Tidings 2 documentation", "url":"http://ewm. bai du. com 
url zi SZ4mooY9yPEbhl wpN5J91 vlr T12i11yye06, ] jg09zTnHJntDrT SuTArchin!2qcnBb BlKBryr Seq }QJGLragnaD kwhey 
GmeSGxFq”}’ ><a class="c-tip-icon”><i "c-icon c~icon-triangle-down-g”></i></a></div><span 
class="c-icons-outer”><span cla: nner”></span></span>énbsp;-&nbsp; <a data-c. 
Ürsv. snapshot' :’1’}” href-"http://cache. baiducontent. com/c? 
19 £65cb4a8.c8507ed4 Fece7631 05780384 e08db2463c0d0633 d9Fd51 2ce3B4c413026b4e87 1644a5385982d261 6af3e01aaa52 
b27604566ecc79d9fdaabfad47b6fce7062671cfllb548c47bb8elb65972fd211aff54d4bbadf043d2f98c84830f1495&p=89769 


图 8-18 搜索 class 属性 


发 现 共 有 10 个 结果 ， 并 且 第 二 个 搜索 结果 的 标题 和 搜索 页 面 中 第 二 个 搜索 结果 相同 ， 
数 一 数 百度 搜索 结果 页 面 中 总 共 10 个 结果 。 可 以 确定 所 有 的 搜索 结果 中 都 包含 有 class="c- 
tools" 标 签 ， 可 以 使 用 find elements by class name 定位 所 有 的 搜索 结果 了 。 执 行 命令 : 


resultElements = browser.find_elements_by_class_name(‘c-tools’) 


len (resultElements) 


执行 结果 如 图 8-19 所 示 。 


画 C:\Windows\system32\cmd.exe - python 


€:\Users\king>python B 
Python 2.7.11 (w2.7.11:6d1h6a68f775, Dec 5 2015, 20:40:30) [MSC v.1500 64 bit < 
AMD64>] on vin32 E 
"copyright", "credits" or "license" for more information. 
lenium import webdriver 

browser = webdriver.PhantomJS C) 

browser.get<’ https ://www. baidu.com’ > 

browser. implicit ly_wait¢1@> 


textElement = browser.find_elenent_by_class_name¢’s_ipt’> 
textElenent .send_keys<’ Python selenium’ > 


submitElement = brouser.find element by id('su') 
subnitElenent .click(> 


t brouser.title 


foren pour 


图 8-19 定位 搜索 结果 


这 里 使 用 的 是 find_elements， 不 是 find_element。 定 位 多 个 结果 时 用 elements. | 


一 般 来 说 定位 结果 用 find_element_by_xpath 或 find_element_by_css 比较 方便 ， 如 果 结 果 
中 有 特殊 的 属性 ， 用 find element by class name 也 挺 好 ， 哪 个 方便 就 用 哪 一 个 。 
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8.3.4 ”从 位 置 中 获取 有 效 数据 
有 效 数据 的 位 置 确定 后 ， 如 何 从 位 置 中 过 滤 出 有 效 的 数据 呢 ? 一 般 就 是 获取 element 的 
文字 或 者 获取 Element 中 某 个 属性 值 。Selenium 有 自己 独特 的 方法 ， 分 别 是 : 


element .text 


element.get attribute (name) 


可 到 Chrome 浏览 器 搜索 结果 的 源 代码 页 面 ， 如 图 8-20 所 示 。 


w-source:https://www.baidu.com/s?wd= python 
XGNPTISDEDVIDSFÜSTOSOTEDKZTNEUS TT UOT IT TZN 


图 8-20 有 效 数据 
所 需 的 有 效 数 据 就 是 data-tools 属性 的 值 。 执 行 命令 : 


value = resultElements[0] .get attribute('data-tools') 
valueDic = eval (value) 

print valueDic.get('title').decode('utf8') 

print valueDic.get('url') 


执行 结果 如 图 8-21 所 示 。 


>>> value = resultElenents(@1.get_attribute¢’data-tools’ > 
>>> valueDic = eval<value> 

>>> print valueDic.get¢’ title’ >.decode<’utf8’ > 

Selenium with Python — Selenium Python Bindings 2 ... 


>>> print valueDic.get(’url’> 

http://www. baidu.com/Link?ur1=6Te@ygsF8h9uDPr¥MI nuU£ I txj0gMBiBpxGMPxpE1 rcekZgzUt 
fir 7Fuui DF BJeO3upI jZKRra3QG2¥p_Wel.ga 

>>> 


图 8-21 获取 有 效 数 据 


遍历 resultElements 列表 ， 可 以 获取 所 有 搜索 结果 的 title 和 url。 至 此 ， 已 将 
Selenium&PhantomJS 疏 虫 运行 了 一 遍 。 根 据 这 个 过 程 可 以 编写 一 个 完整 的 聆 虫 。 


Selenium&PhantomJS 实战 一 : 获取 代理 


用 Selenium&PhantomJS 完成 的 网 络 怜 虫 ， 最 适合 使 用 的 情形 是 爬 取 有 JavaScript 的 网 
站 ， 但 用 来 朴 其 他 的 站 点 也 一 样 给 力 。 在 Scrapy 怜 虫 中 曾 疏 取 过 代理 服务 器 的 例子 ， 这 里 再 
以 Selenium&PhantomJS 疏 取 代理 服务 器 为 示例 ， 比 较 两 者 有 什么 不 同 。 


m 
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8.4.1 准备 环境 


在 Scrapy 爬虫 中 获取 了 代理 ， 需 要 自行 验证 代理 
中 获取 已 经 验证 好 了 的 代理 服务 器 。 打 开 目 标 站 


是 否 可 用 。 这 次 将 在 www.kuaidaili.com 
主页 ， 如 图 8-22 所 示 。 


B aszem x 


ASE RSE 。 开放 代理 CER — APHEDI 


图 8-22 目标 主页 
最 终 需要 获取 的 有 效 数 据 就 是 代理 服务 器 。 从 中 可 以 看 出 网 站 也 给 出 了 API 接口 。 从 好 


的 方面 想 ， 有 现成 的 API 接口 获取 代理 服务 器 会 更 加 方便 ， 但 从 坏 的 方面 考虑 ， 因 为 本 身 就 
有 API 接口 ， 那 么 限制 疏 虫 恐怕 就 更 加 方便 了 。 


单 击 API 接口 的 链接 查看 一 下 ， 如 图 8-23 所 示 。 


€ > Œ Dwwwkuaidailicom/apido' 
</proxylist? 
[data 
</result? 


xal version="1.0° encoding=“UIF-8 

result: 
‘code>-1</code> 
sp PRRs 
data> 


/data? 
result? 


图 8-23 API 限制 条 件 
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还 好 ， 限 制 的 条 件 不 多 ， 无 须 添加 复杂 的 反照 虫 。 下 面 准备 怜 虫 项 目 环境 ， 


连接 登录 到 Linux, PAM AIGA AS. ita: 


mkdir -pv selenium/kuaidaili 
cans 


执行 结果 如 图 8-24 所 示 。 
Bk 


The programs included with the Debian GNU/Linux system are free software; 
he exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


LLLLLTLITETTTITTTTTTTTTTTTTTTTTITTITIE] 
#linux user:password 

#king:qwe123 

#root :debian8 

à 

(mysql user:password 

#root :debian8 

#crawlUSER:crawl123 
OL 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
permitted by applicable law. 

Last login: Sat Jan 27 18:45:06 2018 from 192.168.1.99 
king@debian8:~$ cd code/ 

king@debian8:~/codeS[ mkdir -pv selenium/kuaidaili 
mkdir: 已 创建 目录 "selenium 

mkdir: 已 创建 目录 "selenium/kuaidaili" 
kingedebian8:~/codes [cd $ 
king@debian8:~/code/selenium/kuaidailis [] 


图 8-24 准备 工作 目录 


下 面 就 可 以 在 该 目录 下 编写 息 虫 文件 getProxyFromKuaidaili.py。 


8.4.2 


ERRE 


【示例 8-1] getProxyFromKuaidaili.py 的 代码 如 下 : 


#!/usr/bin/env python3 
#-*- coding: utf-8 -*- 
__author_ = 'hstking hst_king@hotmail.com' 


from selenium import webdriver 
from myLog import MyLog as mylog 
import codecs 


pageMax = 10 #f@RVAN A 


saveFileName = 'proxy.txt' 


class Item(object): 
ip = None #ft## IP 地 址 
port = None HRM IP 端口 
anonymous = None # 是 否 匿名 


打开 Putty, 
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17 
18 
19 
20 
22 
23 
24 
25 
26 
zu 
28 
29 
30 
Sul 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
S1 
52 
53 


protocol = None # 支 持 的 协议 http or https 
local = None # 物 理 位 置 

speed = None # 测 试 速度 

uptime = None # 最 后 测试 时 间 


class GetProxy (object) : 


def _init (self): 
self.startUrl = 'https://www.kuaidaili.com/free' 
self.log = mylog() 
self.urls = self.getUrls() 
self.proxyList = self.getProxyList (self.urls) 
self.fileName = saveFileName 
self.saveFile(self.fileName, self.proxyList) 


def getUrls (self): 
urls = [] 
for word. in P'inba'", 'antr']* 
for page in range(1, pageMax + 1): 

urlTemp = [] 
urlTemp.append(self.startUrl) 
urlTemp.append (word) 
urlTemp.append (str (page) ) 
urlTemp.append('') 
url = '/'.join(urlTemp) 
urls.append (url) 

return urls 


def getProxyList(self, urls): 

proxyList = [] 

item = Item() 

for url in urls: 
self.log.info('crawl page :%s' %url) 
browser = webdriver.PhantomJdS () 
browser.get (url) 
browser.implicitly wait (5) 
elements = 


browser.find elements by xpath('//tbody/tr') 


54 
55 


for element in elements: 
item.ip - 


element.find element by xpath('./td[1]').text 


56 


item.port = 


element.find element by xpath('./td[2]').text 


ST 


item.anonymous = 


element.find element by xpath('./td[3]').text 


58 


item.protocol = 


element.find element by xpath('./td[4]').text 


59 


item.local = 


element.find element by xpath('./td[5]').text 


60 


item.speed = 


element.find element by xpath('./td[6]').text 
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61 item.uptime = 
element.find element by xpath('./td[7]') .text 


62 proxyList.append (item) 

63 self.log.info('add proxy $s:$s to list' 
$(item.ip, item.port)) 

64 browser.quit() 

65 return proxyList 

66 

67 def saveFile(self, fileName, proxyList): 

68 self.log.info('add all proxy to $s' $fileName) 

69 with codecs.open(fileName, 'w', 'utf-8') as fp: 

70 for item in proxyList: 

71 fp.write('$s \t' $item.ip) 

72 fp.write('$s \t' %item.port) 

73 fp.write('$s \t' %item.anonymous) 

74 fp.write('%s \t' %item.protocol) 

75 fp.write('$s \t' $item.local) 

76 fp.write('%s \t' %item.speed) 

TI fp.write('%s \r\n' $item.uptime) 

78 

79 

80 if name == ' main _': 

81 GP - GetProxy() 


按 Esc 键 ， 进 入 命令 模式 后 输入 :wd 保存 结果 ， 再 将 之 前 项 目 中 用 过 的 myLog.py 复制 到 
当前 目录 下 。 查 看 当前 目录 ， 执 行 命令 : 
tree 
执行 结果 如 图 8-25 所 示 。 
P 


king@debian8:~/code/selenium/kuaid. 


|— getProxyFromKuaidaili.py 
[一 nyLog.py 


0 directories，2 files 
kingedebian8:~/code/selenium/kuaidailis [] 


图 8-25 显示 目录 文件 
i&frfed H, Harare: 


python3 getProxyFromKuaidaili.py 
tree 


执行 结果 如 图 8-26 所 示 。 
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i king @debian8: ~/code/selenium/kuaidaili - o x 


t 
[2018-01-27 22:25:42,662 INFO king add proxy 218.56.132.157:8080 to lis 


t 
[2018-01-27 22:25:42,764 INFO king add proxy 183.51.191.183:9797 to lis 
t 


2018-01-27 22: INFO king add proxy 218.6.145.11:9797 to list 
2018-01-27 22: 2 INFO king add proxy 218.6.145.11:9797 to list 
2018-01-27 22: INFO king add proxy 61.155.164.106:3128 to lis 
t 

2018-01-27 22:25:43,118 INFO king add proxy 61.155.164.106:3128 to lis 
t 

2018-01-27 22:25:43,124 INFO king add all proxy to proxy.txt 


king@debian8:~/code/selenium/kuaidaili$ tree 
|— getProxyFromKuaidaili.log 

[— getProxyFromKuaidaili.py 
[—[ghostdriver.log 
|— nyLog.py 

|— proxy. txt 


一 ycache — 
= myLog.cpython-34.pyc 


1 directory, 6 files 
king@debian8:~/code/selenium/kuaidailis lj v 


图 8-26 3efrfem 


这 里 的 getProxyFromKuaidaili.log 是 用 户 定义 的 日 志文 件 。Proxy.txt 是 最 终 得 到 的 结果 。 
Ghostdriver.log 是 运行 PhantomJS 的 日 志文 件 。 


8.4.3 ”代码 解释 


示例 8-1 这 个 疏 虫 程序 本 身 并 不 复杂 。 第 6~8 行 是 导入 所 需 的 模块 ， 其 中 myLog 模块 是 
自 定 义 模块 ， 也 就 是 后 来 复制 到 当前 目录 的 myLog.py 文件 。 

第 10-11 行 定义 了 2 个 全 局 变量 。 变 量 在 类 中 定义 也 可 以 ， 放 在 这 里 是 为 了 修改 起 来 比 
较 方便 。 

第 13~20 行 定义 了 一 个 Item 类 。 这 个 类 的 作用 是 为 了 方便 装载 怜 虫 获取 的 数据 ， 基 本 包 
含 了 网 页 中 的 所 有 项 。 

第 22~77 行 定义 了 一 个 从 kuaidili 站 点 中 获取 proxy 的 类 。 这 个 类 包含 了 3 个 类 函数 。 
getUrls 函数 用 于 返回 一 个 列表 ， 这 个 列表 包含 了 所 有 有 效 数据 的 网 页 地 址 。getProxyList PA 
数 从 网 页 中 获取 有 效 数据 ， 并 保存 到 一 个 列表 中 。 最 后 的 saveFile 函数 将 所 有 列表 中 的 数据 
保存 到 文件 中 。 


8 e 5 Selenium&PhantomJS 实战 二 : Sme 


Selenium&PhantomJS 可 以 说 是 专 为 JavaScript 而 生 的 。 从 前 面 的 项 目 中 已 经 熟悉 了 
Selenium&PhantomJS 的 用 法 。 本 节 学 习 使 用 Selenium&PhantomJS 获取 JavaScript 返回 的 数 
据 。 一 般 来 说 ， 网 站 上 用 JavaScript 返回 数据 ， 主 要 是 为 了 美观 ， 第 二 个 目的 估计 就 是 增加 
疏 虫 的 难度 了 。 这 里 只 是 讨论 技术 实现 的 手段 ， 请 遵循 “不 作恶 ”原则 ， 不 要 侵犯 他 人 的 知 
识 产 权 。 


324 


8.5.1 准备 环境 


一 般 来 说 在 线 看 漫画 的 网 站 都 会 使 用 JavaScript 来 返回 页 面 ， 直 接 在 页 面 上 贴 出 图 片 的 
下 载 地 址 ， 稍 微 有 点 常识 的 程序 员 都 不 会 这 么 做 ， 那 完全 是 在 测试 访问 者 的 人 品 。 在 Chrome 
中 打开 百度 搜索 ， 搜 索 在 线 漫画 ， 如 图 8-27 所 示 。 


€ > Q (8 https//wwwbaiducomysywd= 


-l&rsv iqid-Oxd031e0df00& 17 d f 


L sm Be wit ek E. 


Ama xu RL neun 


FARR e E RT | 
Tm de 


图 8-27 寻找 目标 站 点 


第 一 个 搜索 结果 已 经 很 明确 地 提出 了 “禁止 下 载 ”， 算 了 ， 找 第 二 个 好 了 。 打 开 第 二 个 
搜索 结果 ， 如 图 8-28 所 示 。 


QC D www.1kkk.com 


Tkxx.com 


首页 ”今日 更 新 原创 精品 少年 热血 ORS URE AIRI REHA AMZER 


图 8-28 选取 目标 


任 选 一 个 目标 就 可 以 ， 这 号 


选取 第 一 个 漫画 。 打 开 漫 画 浏览 页 面 ， 如 图 8-29 所 示 。 
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www 1KKk com; Q, 9 


«mes BEERE (RTRA RSTAS 


图 8-29 Mediet 


3x4 HUKEHE Windows 下 使 用 Eclipse 完成 。 打 开 Eclipse, XŒ PyDev Project, JA 4 
为 getCartoon. 


8.5.2 ERRE 
在 getCartoon 项 目 中 创建 一 个 PyDev Module, 44573 cartoon1.py。 
【示例 8-2] cartoonl.py 的 代码 如 下 : 


#!/usr/bin/evn python3 
#=*= coding: utf-8 -*- 


Created on 2016 年 9 月 10 日 


@author: hstking hst_king@hotmail.com 


from selenium import webdriver 
from mylog import MyLog as mylog 
import os 


BRR 
POoe©nRIRZ VO e8WNR 


12 import time 

13 

14 class GetCartoon (object): 

15 def ^ init (self): 

16 self.startUrl = u'http://www.1kkk.com/ch1-406302/' 
aa self.log = mylog() 

18 self.browser = self.getBrowser () 

19 self.saveCartoon (self.browser) 

20 

21 
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22 def getBrowser (self): 


23 browser = webdriver.PhantomJdS () 
24 try: 
25 browser.get (self.startUrl) 
26 except: 
27 mylog.error('open the %s failed' $self.startUrl) 
28 browser.implicitly wait (20) 
29 return browser 
30 
31 def saveCartoon(self, browser): 
32 cartoonTitle = browser.title.split(' ')[0] 
33, self.createDir (cartoonTitle) 
34 os.chdir(cartoonTitle) 
35 sumPage = 
int(self.browser.find element by xpath('//font[G8class-"zf40"]/span[2]') .text) 
36 i=1 
37 while i<=sumPage: 
38 imgName = str(i) + '.png' 
39 browser.get_screenshot_as_file(imgName) 
40 self.log.info('save img %s' %imgName) 
41 i +=1 
42 NextTag = browser.find element by id('next') 
43 NextTag.click() 
44 4 browser.implicitly wait (20) 
45 time.sleep(5) 
46 self.log.info('save img sccess') 
47 exit () 
48 
49 def createDir(self, dirName): 
50 if os.path.exists (dirName): 
5d self.log.error('create directory $s failed, hava a same name 
file or directory' $dirName) 
52 else: 
53 try: 
54 os .makedirs (dirName) 
55 except: 
56 self.log.error('create directory $s failed' $dirName) 
57 else: 
58 self.log.info('create directory $s success' %dirName) 
59 
60 
61 if name == ' main ': 
62 GC - GetCartoon() 


再 将 之 前 项 目 中 的 mylog.py 复制 到 项 目 中 Linux 中 复制 的 是 myLog.py， 实 际 上 是 一 个 
文件 ， 只 不 过 Windows 下 不 区 分 大 小 写 而 已 ) 。 单 击 Eclipse 图 标 栏 的 运行 图 标 ， 执 行 结果 
如 图 8-30 所 示 。 
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File. Edit Source Refactoring Navigate Search Project Pydev Run Window Help 
= OM UU Quick 


HP PyDev Package. £2 | = El | B aoa 


menm 
[ETIEELI 


Ty catoonilog 


from selenium import webdriver 
from mylog import MyLog as mylog 
import os 

B) cattoonlpy Beg ais 


E ghostdriverlog 
E mylog.py 


class GetCartoon(object): 
def _ init__(self} 
zeLg.starturl 
È D3Program Files\python pe crie) 
baiduBs4 self browser = self.getSrowser() 
nd 19 self saveCartoon(self.browser) 
Ese a self browser qui: 


getBulletin 
helloPython 22 
MechanizeAndBs4 2 Fidi menia sr 2 RES ; 

rowser = webdriver.Phantom)S( 

pist try: 
gidionass browser.get(self.sterturl) 
seleniumBaiduNews except: 
mylog.error( t XseLf. start] 


test 25 browser.implicitly wait(20) 
winningNumBSA < E) 


YinYueTaiBSA 


BEEBEBEEBEEE 
3 


© Console 22 s» X99 & Ss 
«terminated» E:\save\sync\code\crawler\bs4Project\getCartoon\cattoon]| 
2016-09-11 20:13:58,088 INFO king save img 25.png 


20:14:05,019 INFO save img 26.png 


20:14:10,151 INFO save img sccess 


8-30 ”运行 候 虫 Cartoonl.py 


显示 操作 成 功 。 项 目 中 也 得 到 了 漫画 的 目录 。 打 开 下 载 的 漫画 目录 ， 如 图 8-3 


日 志文 件 
所 示 。 


= > a 4 
(E) » save > sync » code p crawler » bsaProject » getCartoon » MDSTARL 
— — = 


IAM When 
共享 ” BBOUR Fes 


图 8-31 获取 的 结果 
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最 终 保 存 的 结果 不 是 单纯 的 漫画 ， 而 是 整个 页 面 的 截图 。 


8.5.8 ”代码 解释 
示例 8-2 XE, A 60 多 行 。 第 9-12 行 是 导入 所 需 的 模块 。 第 14-58 ITER 
K, iX NEMA A 3 个 类 函数 。 
© 第 22-29 行 是 类 函数 getBrowser 的 原型 ， 它 的 作用 是 返回 一 个 browser TR. RL 
稍微 要 注意 点 的 就 是 browserimplicitly wait(20)， 它 的 作用 是 设 定 了 智能 等 待 的 最 
长 时 间 。 
€ 第 31~47 行 是 类 函数 savaCartoon。 这 个 函数 将 从 网 站 中 获取 图 片 ， 并 保存 到 新 建立 
的 文件 夹 中 。 文件 夹 的 名 字 是 从 网 页 的 tile 中 获取 的 。 从 网 页 中 获取 了 这 个 漫画 的 
总 页 数 ， 因 为 这 个 漫画 在 最 后 一 页 (第 26 页 ) 还 是 有 “下 一 页 ”的 按钮 ， 没 办 法 
通过 是 否 存在 “下 一 页 ”按钮 来 确定 是 不 是 最 后 一 页 ， 所 以 必须 先 获取 这 个 漫画 的 
总 页 数 。 Seleniuim&PhantomJS 解释 了 页 面 的 JavaScript， 也 将 解释 后 得 到 的 图 片 显 
示 在 浏览 器 上 了 ， 但 这 个 站 点 在 防盗 链 上 做 得 很 到 位 ， 只 要 在 页 面 上 执行 一 次 刷新 
操作 ， 网 站 就 判 为 盗 链 ， 显 示 出 防止 盗 链 的 图 片 ， 并 且 得 到 的 图 片 链 接地 址 也 无 法 
下 载 ， 所 以 最 简单 的 方法 就 是 对 整个 页 面 进行 截图 。 好 在 Selenium 本 身 就 有 截图 工 
具 ， 还 算 方 便 。 另 外 ， 在 NextTag.click() 之 后 使 用 的 并 不 是 Selenium. 的 智能 等 待 
implicitly wait， 而 是 time.sleep， 因 为 implicitly wait 对 NextTag.click() 并 不 起 作 
用 ， 反 而 是 使 用 time.sleep 的 效果 比较 好 。 
€ 第 49-58 行 是 类 函数 createDir， 作 用 是 创建 一 个 目录 。 为 了 防止 有 同名 的 目录 ， 先 
在 函数 内 做 出 判断 。 


这 个 息 虫 虽然 将 漫画 全 部 保存 下 来 了 ， 但 也 把 页 面 上 多 余 的 部 分 保存 了 ， 略 有 瑕 羔 。 如 
果 想 追求 完美 ， 也 可 以 通过 其 他 的 模块 将 所 需 的 漫画 裁剪 下 来 。 


8.6 sane 


Selenium&PhantomJS 疏 虫 功能 很 强 ， 但 效率 并 不 高 。 对 访问 者 限制 不 严格 的 网 站 ， 
一 般 不 建议 使 用 Selenium&PhantomJS EH. MME MH Ht JavaScript 返回 有 效 数据 
的 网 站 ，Selenium&PhantomJS 疏 虫 效果 还 不 错 ， 如 果 没 有 更 好 、 更 方便 的 选择 ， 这 可 能 
是 最 好 的 方案 了 。 
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Pyspider E RIER E — HHA BIT IFA Python MEH HERE. 5 Hoffe dt A8 AS E E 
Pyspider 不 需要 任何 编辑 器 或 者 IDE 的 支持 。 它 直接 在 Web 界面 ， 以 浏览 器 来 编写 调试 程序 
脚本 。 在 浏览 器 上 运行 、 起 停 、 监 控 执行 状态 、 查 看 活动 历史 、 获 取 结 果 。Pyspider 支持 
MySQL (MariaDB) 、MongoDB、SQLite 等 主流 数据 库 ， 支 持 对 JavaScript 的 页 面 抓 取 〈 也 
是 靠 的 PhantomJS 的 支持 ) ， 重 要 的 是 它 还 支持 分 布 式 息 虫 的 部 署 ， 是 一 款 功 能 非常 强大 的 
EHHE. Pyspider 上 手 比较 简单 ， 但 想 深入 了 解 也 是 要 花 点 工夫 的 。 


Ma ir rore BWM, Pyspider EAH Python 3/5, EAE Pyapider for Python 3 时 


| 总 会 遇 到 问题 。 本 章 采用 的 是 Python 2 的 Pyspider。 


9. 1 安装 Pyspider 


基于 Pyspider 纯正 的 Python 血统 ， 安 装 Pyspider 最 简单 的 方法 是 用 pip。 如 果 需 要 最 新 
版 本 的 Pyspider 可 以 到 官网 下 载 最 新 版 本 安装 ， 或 者 用 git 来 安装 。 


9.1.1 Windows 下 安装 Pyspider 


在 Windows 中 安装 Pyspider 采用 比较 简单 的 pip 安装 ， 进 入 桌面 后 ， 单 击 左下 角 的 开始 
按钮 ， 在 弹出 菜单 中 单 击 “运行 ”， 打 开 cmd.exe， 执 行 命令 : 


pip install pyspider 


r= DA -REEERE pip 的 源 ， 否 则 安装 会 慢 得 令 人 难以 接受 。 | 


执行 结果 如 图 9-1 所 示 。 


afe 
Running setup.py bdist wheel for pyspider ... done 
Stored in directory: C:Wsers\king\AppData\Local\pip\Cache whee 15 19 \B7\cd N3£8 
8h4e31a5145ae51839685£296865971£45089812367h65 
Running setup.py bdist wheel for tornado ... done 
Stored in directory: C:\Wsers\king\AppData\Local\pip\Cache wihee 15 \ef N38 Ncc \dec 
9c4340d403h575£3d91d662179612££755dh962246£63h5 
Running setup.py bdist wheel for itsdangerous ... done 
Stored in directory: G:Wsers\king\AppData\Local\pip\Cache Whee 15 8758c Ndd N3d9 
9db64bF £5d2763528de6Bf dee25£ 43db896ac3875c1a52 
Running setup.py bdist wheel for MarkupSafe ... done 
Stored in directory: C:\Wsers\king\AppData\Local\pip\Cache Whee ls Ne N68N47*5b1. 
la4h2c2f bf b3fh2c86aa823bO801b2a2644ac47583 70996 
Successfully built pyspider tornado itsdangerous MarkupSafe 
Installing collected packages: itsdangerous, click, Werkzeug, MarkupSafe, Jinja2 
|| Flask, chardet, pycurl, pyquery, urllib3, certifi, requests, singledispatch, b 
ackports-abc, tornado, Flask-Login, u-msgpack-python, tblib, defusedxml, wsgidav 
|. pyspider 
Successfully installed Flask 0.12.2 Flask Login-0.4.0 Jinja2-2.10 HarkupSafe-1.0 
Werkzeug-@.12.2 backports-abc-8.5 certif i-20! = ? def 
‘Msedxm1-8.5.8 itsdangerous-8.24 pycurl-7.43.0 |pyquery-1.3.8 pyspide: -9| reque 
|5ts-2.18.4 singledispatch-3.4.0.3 tblib-1.3.2 tornado-4.5.2 u-nsgpack-python-2.4 
1 urllib3-1.22 usqidav-2.2.4 


图 9-1 pip #48 Pyspider 
Pyspider 已 经 安装 完毕 了 。 这 里 要 注意 的 是 ，Pyspider 默认 是 需要 PhantomJS 支持 的 
(PhantomJS 在 前 面 的 章节 中 已 经 安装 过 了 ) 。 如 果 没 有 安装 PhantomJS， 那 么 在 运行 过 程 
中 可 能 会 出 现 警告 信息 。 


Pyspider 对 Windows 的 支持 不 是 非常 好 。 如 果 条 件 允 许 ， 尽 量 避免 在 Windows 下 使 用 
| Pyspider 框架 。 官 方 网 站 也 对 此 做 了 说 明 。 


9.1.2. Linux 下 安装 Pyspider 

在 Linux 下 安装 Pyspider 可 能 会 出 现 依赖 性 的 问题 。 这 里 采用 最 安全 的 方法 ， 使 用 
Anaconda 创建 虚拟 环境 Python 3 后 ， 在 虚拟 环境 下 安装 Pyspider， 这 样 可 以 完美 地 解决 依赖 
性 的 问题 (Anaconda 的 安装 请 参考 其 他 资料 ) 。 执 行 命令 : 


su 
cd /usr/local/ 

git clone https://github.com/binux/pyspider.git 
ls 

cd pyspider 


python setup.py install 
执行 结果 如 图 9-2 所 示 。 
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[adding 1xml 4.1.1 to easy-install.pth file 


Using /usr/local/lib/python3.4/dist-packages 

Searching for cssselect==1.0.3 

Best match: cssselect 1.0.3 

icssselect 1.0.3 is already the active version in easy-install.pth 


Using /usr/local/lib/python3.4/dist-packages 


Searching for chardet==2.3.0 
Best match: chardet 2.3.0 


lchardet 2.3.0 is already the active version in easy-install.pthi nn 
Installing chardetect script to /usr/local/bin 

Using /usr/lib/python3/dist-packages 

Searching for MarkupSafe==0.23 

Best match: MarkupSafe 0.23 

MarkupSafe 0.23 is already the active version in easy-install.pth 

Using /usr/lib/python3/dist-packages 


Finished processing dependencies for pyspider==0.3.10-dev 
root @debian8: /usr/local/pyspider¢ 


9-2 git 安装 Pyspider 
Pyspider 已 经 安装 完毕 。 测 试 一 下 ， 执 行 命令 : 


exit 
cd 
pyspider all 


执行 结果 如 图 9-3 所 示 。 


king@debian8: ~ 


文件 (F) 编辑 (E) 查看 (V) 搜索 (5) 终端 (T) 帮助 (H) 
Using /usr/lib/python2. 7/ dist- packages 
Searching for chardet==2. 3. 0 

Best match: chardet 2.3.0 

khardet 2.3.0 is already the active version in easy- install. pth 
[Installing chardetect script to /usr/local/bin 


Using /usr/lib/python2. 7/ dist- packages 

Searching for defusedxml==0. 4. 

Best match: defusedxml 0.4.1 

kefusedxml 0.4.1 is already the active version in easy- install. pth 


Using /usr/1ib/ python2. 7/ dist- packages ROSA 安村 
Finished processing dependencies for pyspider==0. 3. 10- dev 
root Gdebian8: /usr/local/pyspider# cd det 
pyspider all 
37 113] phantomjs not found, continue running without it. 


E 171130 11:55:39 result_worker: 49] result_worker starting... 
I 171130 11:55:43 processor: 211] processor starting... 


i 

|I 171130 11:55:43 tornado fetcher:638] fetcher starting. 

[I 171130 heduler:647] scheduler starting. 

[I 171130 heduler:586] in 5m: new: 0, success: 0, retry: 0, failed: 0 

[I 171130 heduler:782] scheduler. xmlrpc listening on 127. 0. 0. 1: 23333 
[I 171130 app: 76]|webui running on 000| ae — Pyspideri&Hi 


9-3 Jaz] Pyspider 


如 果 没 有 安装 PhantomJS， 需 要 先 安装 PhantomJS 前面 章 节 讲 过 如 何 安装 PhantomJS， 这 
只 做 演示 ) 。 这 个 接口 (Pyspider 控制 台 ) 既 可 以 本 地 访问 ， 也 可 以 远程 访问 。 在 浏览 器 中 
打开 网 址 http://127.0.0.1:5000 (或 者 在 远程 主机 上 打开 http/IP:5000) ， 如 图 9-4 所 示 。 
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pyspider dashboard 


scheduler 0 fetcher 0 processor 0 
0+0 
Recent Active Tasks 
group project name status rate/burst avg time progress 


9-4 Pyspider WebUI 


现在 可 以 正常 使 用 Pyspider 了 。 


9.1.3 选择 器 pyquery 测试 


在 前 面 的 章节 中 曾 讲解 过 CSS 选择 器 和 XPath 选择 器 ， 在 Pyspider ER PARAL EA CSS 
和 XPath 也 是 可 以 的 。 但 Pyspider 框架 自 备 了 pyquery 选择 器 (在 安装 Pyspider 时 pyquery 
会 自动 安装 ) ， 并 在 框架 中 为 pyquery 准备 了 提示 接口 。pyquery 选择 器 与 CSS 和 XPath 一 
FERK, ELR REEM. E Pyspider 框架 中 不 妨 试 用 一 下 pyquery， 至 于 最 终 选择 哪 一 


个 选择 器 ， 视 个 人 习惯 而 定 。 


pyquery 选择 器 不 仅仅 可 以 选择 过 滤 有 效 信息 ， 还 可 以 修改 原文 中 的 标签 属性 ， 但 在 候 
虫 中 只 需要 选择 过 滤 这 一 功能 就 足够 了 。pyquery 选择 定位 非常 简单 ， 最 常用 的 是 通过 标签 
配合 标签 属性 和 属性 值 定位 〈 一 般 来 说 通过 标签 定位 就 足够 了 ) ， 偶 尔 也 有 直接 通过 标签 属 


性 或 者 标签 属性 值 定 位 的 。 


写 一 个 简单 的 网 页 song.html 做 测试 ，song.html 的 代码 如 下 : 


1 <html> 
2 <title>song</title> 

3 <body> 

4 <hl id-'001'»Adele Music</h1> 

5 «ul» 

6 <li album='21'>Someone like you</1li> 

7 <li album='25'>Hello</1i> 

8 <li album='21'>Rolling in the deep«/li» 
9 <li album='21'>Set fire to the rain</li> 
10 </ul> 

11 </body> 

12 </html> 


在 浏览 器 中 打开 该 页 面 并 显示 源 代码 ， 如 图 9-5 所 示 。 
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1 
Adele Music 2 <title>song /title; 
3| <body> 
4 hl id-"001" >Adele Masic</al 
* Someone like you 6 “>Someone like youc/1i 
* Hello H ils AD n 
E d 8 Rolling in leept/1i» 
e Rolling inthedeep | ; <li albus’ 21’ Set fire to the raind/1i 
* Set fire to the rain 10 ul 
11 | </body> 
12| </ntab 


图 9-5 示例 文件 song.html 
pyquery 中 的 定位 与 CSS 有 些 类 似 ， 使 用 pyquery 初始 化 对 象 后 ， 直 接 在 对 象 内 对 标签 
名 进行 定位 〈 正 常 主流 的 定位 方法 ) 。 如 果 只 需要 标签 内 的 文字 ， 使 用 pyquery 定位 后 使 用 
text0) 函 数 解析 出 来 即 可 ， 在 示例 文件 的 当前 目录 下 打开 终端 (或 者 打开 终端 后 再 进入 示例 文 
件 的 当前 目录 ) ， 进 入 python， 执 行 命令 : 


from pyquery import PyQuery 

doc = PyQuery(filename-'song.html') 
print doc 

print doc('title') .text() 

print doc('hl').text() 

print doc('li[album = "25"]').text() 


执行 结果 如 图 9-6 所 示 。 


a 
Bi <1> cmd - python Search P|g-u-aiis 
Python 2.7.12 (v2.7.12:d33e0cf91556, Jun 27 2016, 15:24:40) [MSC v.1588 64 bit (AMD64)] 


on win32 
[Type "help", "copyright", "credits" or "license" for more information. 
>>> from pyquery import PyQuery 

>>> doc = PyQuery(filename-'song.html') 

b>> print doc 

html> 
‘<titlessong</title> 


boc 


5 
«hi id="861"yAdele Music</h1> 


<ul> 
<1i_albume"21">Someone like yi> 
[I aIbun-"25"5Helloc7Ii5] 
<li album="21">Rolling Ww, the deep</1i> 
<li albume"21">Set fire tthe rain</li> | 


</ul> Tag li Taghi Tag title 
/body» 
/htnl» 
i print doc("li[album = “25"]").text()| 
jello 


23 


>> print doc(^hi").text() 
dele Music 


» 
>> print doc(“title’).text() 
jong 
= 


图 9-6 pyquery 定位 后 获取 正文 
有 时 仆 虫 所 需 的 信息 是 隐藏 在 标签 属性 值 中 的 ， 这 时 就 需要 atr 函数 了 ， 继 续 在 终端 中 
执行 命令 : 


print doc('h1l') .attr.id 
print doc('li[album = "21"]').attr.album 
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subTags = doc('li[album = "21"]').items() 
for subTag in subTags: 
print subTag.attr.album 


执行 结果 如 图 9-7 所 示 。 
是 
Bi <1> cmd - python [Seach OP B~G~ a= 


>> from pyquery import PyQue: 
人 
>> print doc 
html> 

<title>song</title> 


iy» 
<h1 id="@@1">Adele Music</h1> 
<ul> 
<li album="21">Someone like you</li> 
«li album-"25"»Helloc/li» 
<li album="21">Rolling in the deep</li> 
«li album="21">Set fire to the rain</li> 


</ul> 
(um 
ei print doc('h1').attr.id 
unc Ta NNNM 
1 多 个 标签 符合 条 件 


>> subTags = [doc("Ii[album = "21"]') iaa M — — BIA LAL —1- 
>> for subTag in sübTags: 
print subTag.attr.album 


1 
1 
1 
> 


> 


图 9-7. pyquery 定位 后 获取 属性 值 


3 这 里 要 稍微 注意 一 下 ， 在 定位 时 如 果 有 多 个 标签 符合 条 件 ， Ese 
| 符合 条 件 的 标签 。 


对 于 疏 虫 而 言 ， 掌 握 了 定位 、 获 取 正 文 和 获取 属性 值 基本 就 足够 用 了 。 虽 然 pyquery 还 
有 很 大 的 潜力 可 挖 ， 但 对 网 络 息 虫 没有 什么 意义 。 如 需 继续 深究 ， 请 参考 pyquery 的 官网 或 
者 Wiki。 


Pyspider 实战 一 : Youku 影视 排行 


Pyspider 疏 虫 框架 上 手 比较 简单 ， 即 使 没有 使 用 过 其 他 的 爬虫 框架 ， 只 要 略 通 Python, 
也 可 以 很 方便 地 创建 企 虫 。 第 一 个 Pyspider 爬虫 ， 选 择 一 个 最 简单 的 目标 ， 即 疏 取 Youku 影 
视 中 的 热 剧 榜 单 。 

编写 疏 虫 时 ， 首 先 要 做 的 是 打开 Pyspider 疏 虫 的 接口 。 这 里 选择 在 Debian 中 打开 
Pyspider JE RHEE, tR E REE REO, XÉ3k Debian， 打 开 终 端 〈 或 者 远程 连接 到 
Debian) ， 执 行 命令 : 


ls 
pyspider all & 
ls 
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1s data 
执行 结果 如 图 9-8 所 示 。 
a king@debians: ~ = 


the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 

[permitted by applicable law. 

|Last login: Tue Dec 5 22:36:10 2017 from 192.168. 

ngédebian8:-$ is 

Desktop Pictures 

kingüdebianS:-5 pyspider all & 

[1] 2245 

king@debian! 


$ phantomjs fetcher running on port 25555 
] result worker starting... 

processor starting... 

scheduler starting... 

scheduler.xmlrpc listening on 127.0.0.1:23333 


fetcher starting... 


running on 0.0.0.0:5000 


in Sm: new:0, success:0,retry:0,failed:0 


ingédebian8:-$ 1s 

data Desktop Pictures 
|ringüdebian8:-$ 1s data 
[project.db result.db scheduler.ld scheduler.1h scheduler.all task.db 
king@debians:~S [] 


9-8 打开 Pyspider 框 架 


从 图 9-8 中 可 以 看 出 启动 Pyspider 框架 后 ， 在 当前 目录 中 会 自动 创建 一 个 data 文件 夹 。 
Pyspider 的 所 有 文档 都 在 data 文件 夹 中 。Pyspider 创建 的 所 有 项 目 都 在 data 文件 夹 下 的 
project.db 文件 中 《后 绥 名 为 db 的 文件 是 Sqlite 3 数据 库 所 创建 的 表 ) 。 


9.2.1 创建 项 目 


根据 提示 在 浏览 器 中 打开 Pyspider 的 webui (Pyspider 控制 台 ) 。0.0.0.0:5000 在 浏览 器 
中 可 以 用 IP:5000 来 打开 ， 然 后 单 击 Create 按钮 ， 开 始 创建 Pyspider 项 目 ， 如 图 9-9 所 示 。 


D) Dashboard - pyspider x 
e: © ||© 192.168.1.80:5000 


Create New Project 


Project Name 


Start URL(s) 


Mode | Script | Sime 


= 


图 9-9 创建 Pyspider Ji H 
在 这 里 只 需要 填 入 两 个 参数 ， 一 个 项 目 名 称 ， 一 个 起 始 网 址 。 在 浏览 器 中 打开 youku 的 
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主页 ， 并 转移 到 电视 剧 分 站 ， 如 图 9-10 所 示 。 


(ns = a 
D) Dashboard - pyspider X / © tvyouku.com x 


€ > C [O wyoukucom mE ote 


Ta | on | sm @- 0- =m 
热 剧 榜 : 


u E em 
d jd 九州 海上 | 
a 


我 的 ! 体 
四 ssec 


我 的 ! 体育 老师 TV 版 急诊 科 医 
机 CCP 上 演 要 条 大 叔 访 


B esex 
我 不 是 精 
B x 
B ss 
D +=” 
m asns 
ESHT? 


新 剧 预 


过 界 


9-10 Youku hot TV list 


现在 起 始 网 址 已 经 有 了 (tv.youku.com) ， 项 目 名 称 可 以 填 youkuHotTvList。 填 入 刚才 新 
创建 的 项 目 中 去 。 最 终 的 目标 是 仆 当 前 热 剧 榜 单 的 排名 、 电 视 名 以 及 播放 次 数 。 将 项 目 名 和 
起 始 网 址 填 入 刚 创建 的 Pyspider 项 目 中 去 ， 如 图 9-11 所 示 。 


D) Dashboard - pyspider x (E) tv.youkucom x 
€ Q |O FR | 192.168.1.80:5000 Gr Over BB: 


Create New Project 


Project Name youkuHotTvList 


Start URL(s) http://tv. youku.com 


Mode Script | Slime 


9-11 创建 新 项 目 
单 击 Create 按钮 ， 名 字 为 youkuHotTvList 的 Pyspider ERM H CAEH. 
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9.22 ERAS 


现在 youkuHotTvList 项 目 将 进入 调试 模式 ， 在 这 个 模式 中 可 以 调整 修改 Pyspider 默认 的 代 
码 ， 并 测试 代码 效果 ， 如 图 9-12 所 示 。 


h o 
D youkuHotTvList - Deb. x \ (&) tvyyouku.com. x 
€ C | © 192.168.1.80:5000/debug/youkuHotTvList Wx|O0€*9€-oONM: 
pyspider > youkuHotTvList 项 目 名 Documentation { WebDAV Mode ) 
‘ae E3 


“process”: { 
"callback^: "on start" 


“project”: “youkuHotTvList”, 
"taskid': "data:,on start", from pyspider.libs.base handler import * 
"url": “data:, on start" 
} 
FE class Handler BaseHandler) 
crawl_config = { 


Gevery(mimtes=24 * 60) ”起 始 网 址 
def on start(self 
self. crawl (http: //tv. youku. com’ | 
callback=self. index_page) 


Gconf ig (age=10 * 24 * 60 * 60) 
def index_page(self, response) 
for each 
response. doc( a [href ="http"]’), itens () 
self. crawl (each. attr. href, 
callback=self. detail_page) 
conf ig (priority=2) 
def detail_page(self, response) 
return 
“url”; respanse. url, 


"title": 
response. doc(’title’).text(), 
} 


EZB (ri) (Follows) (messages) 


[enable css selector helper 


图 9-12 Pyspider 调试 模式 

此 时 页 面 被 分 为 2 个 区 ， 左 边 的 区 是 页 面 预览 区 ， 右 边 的 区 是 代码 编写 区 。 在 代码 编辑 
区 Pyspider 框架 给 出 了 最 初 的 代码 。 只 需要 继续 往 代码 中 填空 就 可 以 完成 这 个 仆 虫 了 。 

先 来 看 看 Pyspider 给 出 的 息 虫 代码 是 怎样 运作 的 ， 默 认 代码 中 只 有 一 个 类 ， 包 含有 3 个 
类 函数 都 是 装饰 函数 ) 。 在 on start 函数 中 载 入 了 在 创建 仆 虫 时 输入 的 起 始 网 址 ， 然 后 通 
过 回调 函数 调用 index_page 函数 。Index_page 函数 的 作用 是 解析 出 起 始 网 址 中 所 有 的 http 链 
接 ， 然 后 使 用 回调 函数 调用 detail page 函数 来 处 理 这 些 链 接 。 而 detail page 函数 返回 解析 得 
到 的 网 址 以 及 网 址 的 标题 文本 。 

下 面 来 测试 一 下 ， 单 击 页 面 代 码 编辑 区 右上 和 角 的 save 按钮 保存 代码 ， 然 后 单 击 页 面 预览 
区 右上 角 的 run 按钮 开始 运行 ， 如 图 9-13 所 示 。 
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€ 


D) youkuHotTvlist - Deb. x 


pyspider > youkuHotTvList 


data:text/plain,on start 


C | @ 192.168.1.80:5000/debug/youkuHotTvList 


Le 


Za 


tor helper } 


9-13. 运行 默认 代码 


ar Ov 2 OB 


H ncoding. utf-8 —«- 
Created on 201 


3 16 13:22: 01 
i # Project: youldiotTuList 4 e 


from pyspider. libs.base handler inport + 


class Handler (BaseHandler) 
cravl_config = { 
1 


every (nirutes=24 * 60) 
def on stert (self) 
self. crawl ( http: //tv. youku. con! , 


callback=2olf. irdox pago) 


Mconfig(ageml0 * 24 * 00 * 60) 
def index page (self, response) 
for each in 
response. doc ('alhref“="http]” ). iteme() 
self. crawl (each. attr-href, 


~ callbsckeself. detail page) 


confie (priority=2) 
def detail_page(srlf. response) 
retum [ 

“url”: response. url, 
$ "title": 
response. doc ( title’). text 0, 
7 1 


Documentation | WebDAV Mode 


1 8 /ust/bin/env python 


默认 代码 运行 后 在 页 面 预览 区 的 下 方 follows 按钮 上 出 现 了 一 个 红色 的 圆 形 图 标 ， 图 标 上 
标示 的 数字 是 提示 程序 所 需要 解析 多 个 少 个 页 面 。 在 默认 的 代码 中 只 有 一 个 起 始 的 网 址 ， 所 


以 这 里 显示 的 是 1， 从 页 面 预览 区 的 上 半 部 分 可 以 看 出 ， 此 时 执行 的 是 on_start 函数 。 


继续 进行 下 一 步 ， 单 击 页 面 预览 区 下 方 的 follows 按钮 ， 如 图 9-14 所 示 。 


D) youkuHotTvlist - Debi x 


eS 


pyspider > youkuHotTvList 


鼠标 单 击 此 处 进行 下 一 步 


(web) (him!) oow: (messages) 
enable css selector helper | 


Q | © 192.168.1.80:5000/debug/youkuHotTvList 


response. doc(' al 


ar Own OB 
Documentation | WebDAV Mode | 


30 /usr/ban/env python 
# -> encoding: utf-8 -+- 
# Created on 2017-12-06 13:22:01 
# Project: yourdlct Lact 


from pyspider. libs. base handler inport * 


class Handler @aceliandler) 


cravl_config = { 


Gevery (nintes=24 * 60) 


def on_start(self) 
self. crawl (http: //tv. youku. con’, 


callback-self. index page) 


@config (age=10 + 24 * 60 * 60) 


def index page(zelf, response) 
for each in 


t57]^) tens 0 
elf, crawl (each, attr. href, 


` cal Iback=self. detail page) 


config (priority=2) 
def detarLpage (self. response) 
return { 


response. url, 


2 “title 
response. doc( title").text(), 
T 1 


9-14. Shan Fe SE e GE 
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F yl thon | 
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d SCIRE PSU PEI T mE B Vip. MEINE AE EIST on start 函数 。 
后 面 的 箭头 按钮 ， 


ü 


d 


d 


detail 


€ 
pyspider > youkuHotTvList 


t 
"teteh": Ue 


得 到 的 结果 如 图 9-15 所 示 。 


D) youkuHotTvList -Debi x 


€ | © 192.168.1.80:5000/debua/youkuHotTvList 


pyspider > youkuHotTvList 


m 
"taskid': “50b3689183¢5704e0: 
furl": "http: / /tv. youu. con” 


detail page > 


page > 
letail page > 
letail page > 


Jetail_page > 


Jetail page 


page > bttp-//vr youku.com/agp... 


KYvvvvvvvvy 


Documentation (WebDAV Mode 


#1 /usr/binf eny python 
# -+ encoding: utf-8 -+ 
# Created on 2017-12-06 13:22:01 


# Project: youkulot Ivist 


from pyspider. libs. base handler inport * 


class Handler (BaseHandler) 
cravl_confie = { 
1 


Gevery(mimiter24 # 60) 
def on_start (self) 
Self. crawl C http: //tv.youku. con’ , 


© esllbockceelf. index pago) 


Scorte Geel $ 24 + 60 + A) 
def index page(zelf, response) 
for each an 
response. doc(’ a href 7 http] ') iens O 
self, crav (each. attr. href, 
calibackeself. detail pare) 


cont ig (prioritys2) 
def detail_page (self. response) 


response. url, 


; retraso aaa! Doer 


fA 9-15 运行 index_page 函数 


D) youkuHotTulist - Deb: x 


© | © 192.168.1.80:5000/debug/youkuHotTvList 


"process": 
“callback”: "detail page" 


h 
E e 
“schedule”: 

pera 


: "89325421£ T22edT2cbd 032 df SbdabóS" , 


Utitle’: u 优酷 -这 世界 很 本 


(web) [htm!] EAS [messages } 
(enable css selector helper 


4| Project: youkuHot IvList 


© trom pyspider.libs.base handler import * 


J class Handler BaseHandler) 


rosa: 
Documentation [WebDAV Mode | 


ë! /usr/ba env python 
# -e encoding: utf-0 -+ 
# Created on 2017-12-06 13: 22:01 


crawl_config = { 
1 


Govory(mimutos24 * 60) 
def on start (self) 

self. ral C http: //tv. youl. con’ , 
callback-self. index page) 


Gcontie (age=10 + 24 * 60 * 60) 
def index page(seM, response) 
for each in 
response, doc(' a[href - bttp"]).itens() 
self. crawl (each, attr, href, 
callback-self.detail_page) 


corfis (priority-2) 
def detail page(self, response) 
return { 
ae 
E 
response, doc("title’).text (), 
l 


response.url, 


9-16 运行 detail page 函数 


单 击 网 址 


现在 已 经 进入 了 index page 函数 ，index_page 函数 返回 了 所 有 以 http 开头 的 链接 ， 从 图 9-15 可 


以 看 出 ， 这 样 的 链接 一 共有 327 个 。 任 选 一 个 链接 ， 单 击 右 侧 的 箭头 按钮 ， 如 图 9-16 所 示 。 


此 时 运行 的 是 detail page 函数 ， 该 函数 返回 的 是 网 页 链接 的 标题 文本 和 该 链接 的 网 址 。 
默认 的 聆 虫 代码 运行 正常 ， 但 设计 疏 虫 的 需求 只 是 获取 起 始 网 址 中 包含 的 热 剧 榜 单 ， 不 是 默 
认 程 序 中 index page 函数 中 写 的 包含 有 htp 字符 串 的 所 有 链接 。 而 且 设 计 的 爬虫 也 不 需要 得 
到 榜 单 中 链接 网 页 中 的 标题 。 所 以 ， 需 要 对 Pyspider 默认 的 程序 修改 一 下 。 

现在 起 始 页 面 源码 中 找到 所 需 数 据 的 位 置 。 在 浏览 器 中 打开 起 始 网 址 
http:/Wtv.youku.com， 查 看 源 代码 并 查找 特征 字符 串 ， 如 图 9-17 所 示 。 


kee het 
x © view-sourcetvyouku.- x 
* Q | © view-source:tv.youku.com * | 
1267 <div class yk-coló") 


1268 <div name-"m pos" id«^m 86854» sand 
~ @ 1269 <div clase lector 


1270 <div classe yk-head'? 
1271 div class-"yk-title an» fA BIS </span> </| 
1272 <div classe" yk copend > 
1273 /di 
1274 div class="yk-ertend"> 
ye SISA 


热 剧 榜 单 
B sve 
" = <label class= hot 11b 
九州 海上 牧 云 记 J | 1283 a hret="//v. youu. co yfshow/id_XMzEyODeSN jACHAR=. htnl” 
Da karget= “blank” class="nane” -frome “1-1*> 错 场 TV 版 </a> 
将 军 在 上 630.5 万 |1284 
n 我 的 ! 体育 老师 TV 版 Kspan class=" extend". TE a 
6 div class item > 
急诊 科 医 生 <label class="hot”>2</Label: 
e 88 <a hret="//v. youku. con/v_show/id_YMzE itz TONTowité=, html” 
B ease target="_blank” class="nane” data-frome”2-1"> HB E Me zio a 
89 


白夜 追 凶 第 一 季 
加 我 下 是 精美 Wiz 
B ss-z92- 
D nee 
国 最 后 的 点 十 
mss» 


span class=" extend”>6, 282. 4 万 </spany 
/aiv| 
div class="iten"> 
<label class-"hot^»3C1abel: 
<a href" //v. youku. conv shon/ id OAT Ss html” 
target="_blank” class-"name" data-from "3-1" 6 EE ES 
94 


span class=" extend”>3, 630. 875 </span> 
/di 
<div class-"iten' 
<label >4</label> 
<a hret="//v, youku. con/v_show/id_XM2E IMTUMMMg==. tnl * 
= ^ class" Dan" "LIDER < 


图 9-17 页 面 源码 


确定 源 代码 中 热 剧 榜 单 的 位 置 后 ， 对 照 源 代码 可 以 发 现 ， 榜 单 内 所 有 电视 剧 都 包含 在 标 
签 <div class"yk-rark yk-rank-long"> 里 。 所 以 ， 疏 虫 定位 时 最 好 是 用 赃 套 定位 的 方式 ， 先 把 这 
个 标签 过 滤 出 来 。 在 这 个 标签 内 间接 定位 所 需 的 数据 肯定 要 比 在 整个 页 面 源码 中 直接 定位 所 
需 数据 要 方便 得 多 。 

第 二 步 就 定位 所 需 数 据 的 精确 位 置 。 对 照 源 代码 发 现 ， 每 个 电视 剧 都 是 包含 在 <div 
class="item"> 标 签 里 的 ， 这 样 的 标签 在 <div class"yk-rark yk-rank-long"> 标 签 内 共有 11 个 。 与 
页 面 上 显示 的 结果 相符 。 

第 三 步 就 可 以 通过 精准 的 定位 来 过 滤 所 需 的 数据 了 。 对 默认 的 代码 稍 加 修改 即 可 。 修 改 
后 的 youkuHotTVList 项 目 代 码 如 下 : 


1 #!/usr/bin/env python 
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2 # -*- encoding: utf-8 -*- 

3 # Created on 2017-12-06 13:22:01 

4 # Project: youkuHotTvList 

5 

6 from pyspider.libs.base handler import * 
7 from bs4 import BeautifulSoup 


8 

9 

10 class Handler (BaseHandler): 

11 crawl config = { 

12 } 

ii} 

14 @every (minutes=24 * 60) 

15 def on_start (self): 

16 self.crawl('http://tv.youku.com', callback=self.index_page) 

17 

18 

19 @config(age=10 * 24 * 60 * 60) 

20 def index_page(self, response): 

2T $ for each in response.doc('a[href^-"http"]').items(): 

22 $ self.crawl (each.attr.href, callback=self.detail_page) 

23 

24 # 使 用 pyquery 定位 过 滤 

25 Tag = response.doc('div[class = "yk-rank yk-rank-long"]') 

26 subTags = Tag('div[class = "item"]').items() 

27 for tag in subTags: 

28 fileName = tag('a') .text() 

29 href = tag('a').attr.href 

30 playNum = tag('span[class = "extend"]').text() 

31 print('$s, $s, $s' %(playNum, fileName, href) ) 

32 

33 HEH bs4 过 滤 定 位 

34 4 soup = BeautifulSoup(response.text, 'lxml') 

35 # Tag = soup.find('div', attrs-('class': 'yk-rank yk-rank-long'}) 

36 # subTags - Tag.find all('div', attrs-('class': 'item']) 

37 # for tag in subTags: 

38 4 fileName = tag.find('a').get text () 

39 ł href = tag.find('a').get('href') 

40 # playNum = tag.find('span', attrs={'class': 
'extend']).get text() 

41 # print('$s, %s, $s' %(playNum, fileName, href)) 

42 

43 
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44 @config (priority=2) 


45 def detail page(self, response): 

46 return ( 

47 "url": response.url, 

48 "title": response.doc('title').text(), 
49 } 


Ej SGA MIG di RAS A EG. XX AP se BEY IG oe FE EK T index page 函数 。 在 
index page 函数 中 放弃 使 用 了 回调 函数 调用 detail page (没有 必要 使 用 detail page. 函数 
) 。 在 页 面 中 通过 两 次 间接 定位 过 滤 出 了 所 需 的 数据 。 
dex dup T 2 种 方法 定位 过 滤 ， 一 种 是 Pyspider 默认 使 用 的 pyquery WE, 5j 
一 种 使 用 的 是 bs4 的 过 滤 。 两 种 方法 同样 有 效 ， 任 意 选 择 一 种 都 可 以 。 
先 看 看 pyquery 的 过 滤 效 果 ， 在 浏览 器 Pyspider 页 面 中 ， 单 击 左 侧 页 面 预览 区 的 Run f 
钮 ， 执 行 结果 如 图 9-18 所 示 。 


f 


DI yeukuHotTvList| /© twyou x 


€ > CO c > C [O wyounuc.. 


t 
st 


i H 
— Documentation | WebDAV Mode | 
| 


@every(mimtes=24 * 60) 

def on start(self) 
| self. crawl ( http: //tv. youku, con’, 
Mback=self. index page) 


| Gconfig(age=10 * 24 * 60 * 60) 
| def index page(self, response) 
for each in 
fponce. doc(”a[href"="bttp”]').itene() 
self. crawl (each. attr, href 
Abackeself. detail pare) 


WBPrasecyse uidit 
Tag = response. doc div[class = “yk 
yk-rank-long”]") 

subTags = Tag( div[class = 
ld 1). itens 0 
for tag in subTags 
fileName = tag( a) .text) 
href = tag("a’). attr. bref 
playNun = tag( span[class = 


的 ! 体育 老师 TV 版 
科 医 生 95073 | Hend“]"). text () 


= print ( %s, e, Ws &(playMun, 
mam 3 人 ee href) 


ace 手 [bs ade fiz 
< 是 精英 TV 版 soup = BeautifulSoup(response.text, 


P. fist div, attre[ class’ 


Tae. find all( div’, attrs= 


for tag in subTags 
fileNane = 


J-find( a^). get. textO 


图 9-18 pyquery 过 滤 结 果 
从 图 9-18 中 可 以 看 出 pyquery 过 滤 出 的 结果 是 准确 无 误 的 。 再 换 成 bs4 的 方法 试 试 ， 在 
浏览 器 中 的 Pyspider 页 面 的 右 侧 代 码 区 注释 掉 25-31 行 ， 并 取消 34-41 行 的 注释 ， 使 用 bs4 
定位 ， 如 图 9-19 所 示 。 
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Ds 
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1 #!fusr/bin/env python 
2 # —— encoding: utf-8 一 本 
3 # Created on 2017-12-06 13:22:01 
4 4 Project: youkuHotTvList 


from pyspider.libs.base handler import * 
from bs4 import BeautifulSoup 


10 class Handler (BaseHandler): 
T crawl config - [ 
12 } 


14 @every(mimates=24 * 60) 
5 def on_start(self): 
self. crawl(’ http: //tv.youku. com’, callbackeself.index page) 


@conf ig (age=10 * 24 * 60 * 60) 
def index_page(self, response): 
# for each in response. doc(’ a[href^-"http"]'). itens () 
# self. crawl (each. attr. href, callback=self. detail page) 


# 使 用 Pyquery 定 位 过 滤 
Tag = response. doc(' div[class = "yk-rank yk-rank-long”]’) 
subTags = Tag( div[class = "item"]'). item: 
for tag in subTags 
fileName = tag('a').text() 
href = tag(’a’). attr. href 
playNum = tag( span[class = "extend"]').text() 
print ( %s, Ws, Ws' %(playNum fileName, href)) 


tct nost st at at 


ait Abs did Be fu 
soup = BeautifulSoup(response.text, 'lxml') 
Tag = soup.find( div’, attrs-[ class’: 'yk-rank yk-rank-long’ }) 
subTags = Tag.find_all(’ div’, attrs={' class": 'item']) 
for tag in sublags: 
fileName = tag. find( a ). get_text 0) 
39) href = tag. find( a’). get( href’ ) 
40 playNum = tag.find(’ span’, attrs={ class’: ‘extend’ }).get_text() 
41 print( s, Ws, Ws' %(playNum fileName, href)) 


4 @config (priority=2) 

def detail_page(self, response) 

46 return { 

47 “url”: response.url, 

4 “title”: response.doc( title’). text 0, 


9-19. BH bs4 来 定位 过 滤 


刷新 页 面 后 ， 单 击 左 侧 页 面 预 览 区 右上 角 的 Run 按钮 (如 果 不 刷新 页 面 就 单 击 Run 按钮 


的 还 是 上 次 运行 的 结果 ) ， 结 果 如 图 9-20 所 示 。 


DI youkutforrvLise| 


Sy C Gm 


ist Dt 


pyspider > youkl 


"feti". D. 


| Ew aera 


也 可 以 试 下 使 用 Xpath 和 CSS 来 定位 过 滤 。 
经 过 测试 ， 这 个 怜 虫 是 可 以 正常 运行 的 。 现 在 单 


Aon TV 版 
Jums Exc 
相持 在 上 

dem ! 体育 老师 TV 版 


Bria B= 
BARR TV 版 
[xnl 
ESS aie 
最 后 的 5 十 


E 
rera" 1). tert. 


Documentation ( WebDAV Mode 


sponse, doc div [el 


Tag C divldas ~ 


bantet 
‘soup = BeautifulSoup (response. tert, 
» 


Tar = sop. fird( div, attra l class’ 


malas = fetta dv. dita 
tn) 
for tag in subTags: 


href = tag.find( a). get(‘hret’) 
playthm = tag.findf span’, attra 

^: entend ]). get_vext Q 

printÜWe, e, s (playin, 

ime, href)) 


Scent ze (prioritysd) 
def detail page (self, response) 


1 response, url. 
iei 


e die title") tert. 


图 9-20 bs4 过 滤 结果 
结果 同样 准确 无 误 。 使 用 哪 种 方法 定位 过 滤 对 PySpider 爬虫 没有 任何 影响 。 如 果 有 兴趣 


代码 编辑 区 右上 角 的 save 按钮 ， 保 存 


代码 。 然 后 单 击 页 面 预览 区 左上 角 的 pyspider 链接 ， 退 出 debug 模式 ， 进 入 Pyspider 的 控制 


台 ， 如 图 9-21 所 示 。 


DD youkuHotTuliet - Deb x 


e Q | @ 192168.1.80:5000/debug/ycukuHotTM ist 


pyspider } youkuHotTvList 


[i 
"etch": oe 
process": { 


callback 
n 


"index pege” 2 


“project”: “yeulniiict Mist", 
20 


"easkid': "5063559183:5104e0cOcb Gl ctt tcea8", 


"url": “et: /fev youku com” 


(web) (html) EIER (messages } 


[enable css selector helper ) 


9-21 


fuse /binfem python 


& t H 
Documentation (WebDAV Mode} 


Created on 2017-12-06 13:22:01 


4 Project: youluliotTWList 


© fræ pyspider. libe. base handler import w 


from bs4 isport BeautifulSoup 


1 


class Handler (BaseHandìer) 


AE 
respanse. doc alhref -"htzp] ). itens() 


crar, config = { 


every ninutes=24 * 60) 
def on start (self) 
self. crawl [ http://tv youku coy , 


calltackeseli. index page) 


@eonfic(see 0 # 24 + 60 * 60) 
def index page(self, response) 
for each in 


self.crawl (each. actr.hret, 


"etad T). text 0 


退出 debug 模式 进入 控制 台 
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HEA Pyspider FH G Ja A) DLA SUAE RP Sos TREENER youkuHotTvList. #4 m GE 
PMH, Sit; Create 按钮 ， 继 续 照 顺 序 操作 就 可 以 了 ， 如 图 9-22 所 示 。 


iat 

[ Dashboard - pyspider x 
é Q |© 192.168.1.80:5000 ar 
lpyspider dashboard 

scheduler 0 fetcher 0 processor 0 result worker 
0+0 

Recent Active Tasks 
group project name status rate/burst avg time ER actions 
[group] ^ youkuHotrvList E va 团团 加 GD wu 


9-22 Pyspider 控制 台 


至 此 ， 最 简单 的 Pyspider ME PAM INTEH f o XX^* Pyspider 爬虫 虽然 可 以 运行 ， 但 
没有 保存 结果 ， 也 没有 体现 出 Pyspider 疏 虫 的 精 散 。 起 到 的 作用 仅仅 是 熟悉 了 Pyspider JE d 
的 流程 。 


77.45 Pyspider 实战 二 : 电影 下 载 


熟悉 Pyspider 扑 虫 的 流程 后 ， 下 面 来 编写 一 个 完整 的 “纯粹 的 ”Pyspider 项 目 。 选 一 个 
简单 的 项 目 ， 在 电影 下 载 网 站 疏 取 所 有 的 欧美 影片 的 下 载 地 址 。 


9.3.1 项 目 分 析 


这 次 选择 的 电影 下 载 网 站 是 http:/www.ygdy8.com。 在 浏览 器 中 打开 这 个 网 站 ， 在 网 页 
顶部 使 用 鼠标 单 击 欧美 电影 链接 ， 如 图 9-23 所 示 。 
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Ch osse kp 


FEET EEDSSE> 


© [SABE] 201795088 (BRE) BDHENFE 
BWB: 2017-12-10 18:57:55 3$ : 0 
BES] [BD-mkv.720p.F SRF] [2017F SISK] «iR 名 LVS sH E Thelma «£F (t 2017 oe 
E/S/R iB m ERIS oF S HIIS IHDbES 7.4/10 from 2,152 users «EXE 


X) [Rseag] 20174 mIRR SOMBRE (FF!) EOTATSS 


E Elf: 2017-12-08 10:23:10 =: 0 
MUERE RAE SK! J[BD-mkv.720p.FARF][2017F ERE CEBETS] 3 Z SK! /TS/SRTIDTE 
Doea eHbmzs TE BRE GERLRNUBE/SR HER RE o> RARES eIMDD33 7.1/10 from 44,619 u 
re O [SABE] 2017 年 动机 他 (XUHEESHZT)BDHGNUTE 
SERGE (MS Ell: 2017-12-07 23:22:31 85 0 
2017 年 剖 幻 动作 《亚瑟王 : ‘NLS RST [[BD-RMVP. 7200. FSW] TEGUEEBO += HORERERGHII/JHE 
17 年 秘 幻 动作 HND Son Of Bigfoot * 年 代 2017 s 产 地 出 利 时 / 注 国 到 ERU/SIE/EIS cB E R/S eS Ee 
20173008A (E02 
FERRER ONZ O [BABE] 2014FH5 (KANRRS) BD 中 甘 双 字幕 
BW: 2017.12.07 23:21:26 点 者 10 
SSEISSEESNTIOD-RPVD.720p 53531] 2014 388] s E SARIRA +E Les Yeux jaune 


201785 C 产地 EELEE IMDb 评分 6.4/10 from 1, rs RE 
ERR ca 357288 * 关 BIDIA 6B ONE oF SF STKE INDD) 6.4/10 from 1,048 users «FII 


2017&3M€ (USE: 18 O BABE] 2017 年 动作 雄风 (FERRER) EOTATSS 
BM: 2017-12-07 23:18:21 


9-23 项目 起 始 页 


此 时 显示 项 目的 起 始 页 面 为 http:/www.ygdy8.com/html/gndy/oumei/index.html， 移 动 页 面 
右 侧 的 下 拉 条 ， 查 看 页 面 底部 。 将 鼠标 移动 到 末 页 链接 上 ， 页 面 左下 角 将 显示 该 链接 的 链接 
地 址 ， 如 图 9-24 所 示 。 


Dp Semen DET x 


C |@ www.ygdy8.com/html/gndy/oumel/index html * i 
SSS OE ak) FIUO 3/0 TOM 315 users savez MU- 


O WBN] 2017 :)FBIS (EMSL? : A) HOTANTS 


m/m 
Grde «& 
O sumi] 2017 BENI. (IGI / tis) HOPERFE 
EI: 2017-11-27 20:50:01 =) 0 
RE R/GIRT[HD-RMVO. 720p. 8537 ][2017 SBMA) * 泽 名 固形 虱 / 区 屋 * 片 名 Crooked Hou 
B RIR/CR/BE «S E mS * 闻 看 ARFS e HAE 2017-12-22(R81) AIMDb 评 分 7.3/10 
© suum] 2017:H3k)0fr (SMe) HORT 
日 站: 2017-11-26 17:57:18 点 去 1 0 
全 球 风 旺 ][HD-RMV8.720p .二 中 英 双 李 ][2017 平 科 纪 动作 ] * 译 名 全 球 风暴 /人 造 天 翅 ( 洪 )/ 气 象 战 (和 
H E Geostorm * 年 代 2017 * 产 地 美国 :类 到 动作 /科幻 /六 对 vi SEF EE UM 
© BAUR] 20175) 006 (AA) SORAN 
BAR: 2017-11-25 23:15:24 S% : 0 
AAL J[20-RMVB. 720p. PRLF][2017FWFME] F E AHEL +H Z Mayhom * 年 代 2017 = 
BRE +F B PANIE IMDb 6.5/10 from 2,188 users EIRFA 6.4/10 from 1,086 us 
O [BSRR] 20175-8884 (AET) BORAT 
BEA: 2017-11-25 23:13:52 2%: 0 


SEALS )[OD-mbv.720p. SANT |(2017F Sl] «3 名 ERSTG/ ARES) eH 名 C 
ode 到 ER oi E AS * 字 S SASS :1MDb 评 分 6.4/10 from 12,887 users “BAHT 5.3/1 
221707/4449R2R 首页 1 [2] [3] [4] [5] [6] [7] FAAS 


BE Ret -下载 志明 - pate 


‘Opyright « 2016 www.yody8.com. All Rights Reserved 


924 WAAR 


单 击 末 页 链接 ， 进 入 末 页 页 面 。 在 页 面 底部 将 鼠标 分 别 移动 到 各 个 链接 上 ， 以 分 析 链 接 
地 址 规则 ， 如 图 9-25 所 示 。 
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Python MERKAR CAE 2 版 


/ D /Fe BE x 


C (© www.ygdy8.com/ntml/andy/oumci/is: 7 178.himl 


TT Tor = 


© (seme) 10245: (FEEN : K2) BD 中 二 双 字 
BI : 2009-10-05 00:03:03 S% : 48781 
6 & SBN : KE F Z Resident Evil Extindion «st (t 2007 ofl K sei «à BI SHE 
BOVE INDAF 6.4/10 (15,491 votes) eXUHRL BD-RMVB. HEART 1024 x 428 EKO 
O [BABE] 10249 (4215) BOER 
日 期 2009-10-05 00:00:27 S : 11175 
SEG RELSTA VI PRISON AE L— 8/2828 H € 21 < 年 代 2000 * 国 家 半 
FERF sIMDB 玉 分 7.0/10 (18,409 votes) se ED-RMVB RT 1024 x 428 exit 
XV [FABE] 1024F (RESNA) BOTERF 
日 期 2009-10-04 00:21:09 Æ$ : 15838 
28 EBZR/mMOSE +H Z aee Movie < 年 代 2007 oF SE «i5 到 S)R/RR/E RUCS 
HORE (RHEN BD-RMV3 «DESI 1024 x 576 sIMDB 评 分 6.5/10 (8,555 votes) +H i£ 91 r 
O [BARR] 1024919 (SRE BORENF 
日 期 : 2009-10-04 00:16:14 5 : 18045 
SEE SREMA Z Hitch :年 化 2005 (8 R SE * 关 8j BR/RB OE B EUR * 字 ERS 
1 votes) :文件 局 过 BD-RMVB ALMA 1024 x 424 eG $50 x 50MB 1H K 1:58:16 +9 
O SAEK CORNEA (BIAIS IRIS INA) RSPP 
BW : 2009-10-04 00:00:19 S= : 65295 
SER DTIU FBAR CSR £) (B)/MPIE123 =H 各 The Taking O| 
X S/S s 到 N/R SS oS E BE * 字 E 直 字 4TMDB 评 合 6.8/10 9,943 votes * 立 件 | 
41780/444382 EN |H [175] [176] [177] 178 未 页 | 178 "| 
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图 9-25 分 析 链 接地 址 


单 击 首页 链接 ， 与 开始 的 页 面 http://www.ygdy8.com/html/gndy/oumei/index.html 对 比 一 
下 ， 两 者 完全 相同 ， 此 可 以 得 出 结论 : 这 个 项 目 需要 疏 取 的 链接 为 
http://www.ygdy8.com/html/gndy/oumei/list 7_ ,加 上 [1.html, 178.html]. 

在 这 些 链 接 中 需要 得 到 两 个 数据 ， 一 个 是 电影 的 名 字 ， 一 个 是 电影 的 链接 。 以 最 后 一 页 
的 最 后 一 个 电影 为 例 ， 将 鼠标 移动 到 最 后 一 个 电影 的 链接 上 ， 如 图 9-26 所 示 。 


D /BSS SET x 
C [O wwwygdy&.com/ntml/gndy/oumei/ist 7 178.hml * vom 


BORAVE SMR 1074 Y 434 EFX 7700 SA Eg TEL 


O [SAGE] 1024 分 辩 训 《生化 危机 3 : 灭绝 》8D 中 英 双 宁 
BM: 2009-10-05 00:03:03 ck ; 48781 
RE 生化 名 机 3 : RE 2% & Resident Evil Extinction :年 代 2007 oE sk 美国 ob 别 动作 /多 多 
ERF SIMDB;ES3 6.4/10 (15,491 votes) eX, BD-RMVB HERR T 1024 x 428 * 文 件 大 多 


V [BABE] 1024F (4212) BDHERE 
BW : 2009-10-05 00:00:27 点 去 : 11175 
RR RAED ESO LE IRATE AE 8/218 s E 21 eF fè 2008 EM 
FARF IMDB 评 全 7.0/10 (18,409 votos) RAHE ED-RMVB SAAR 1024 x 428 文件 大 
€ [S$5E]10240€ (SEENI) BD 中 至 双 字 
EIN : 2009-10-04 00:21:09 i : 15835 
cB Z EBRR/EISOIE cA Z Bee Movie of fè 2007 * 医 全 美国 * 关 到 SUR RR /ESUCUS 
‘BS RIPET BD-RMVB AART 1024 x 576 sIMDB 评 分 6.5/10 (9,555 votes) 2# K 91 r 
© [Sate] 1024788 (ERB BOPP 
日 期: 2009-10-04 00:16:14 点 去 : 19045 


2 & 全 民情 不 < 片 名 Hitch * 年 代 2005 E R 美国 :类 BI SRE sS EUST ES 
1 votes) REHAS ED-RMVB «KR 1024 x 424 5 文件 大 多 多 59 x 50MB +H 1K 1:56:16 : 导 


O tesa] comers [WANASA RSPP 
ER : 2009-10-04 00:00:19 4 : 65295 
E 各 DTA FEVE Ste) RN Ow) MAMAIS 129 0 各 The Taking O| 
E SSES obs S TH /RURISE e E EE * 字 B FF eINDBTS 6.3/10 9,943 votes «t 
共 178 页 /4443 冬 记录 BA 上 一 页 [175] [176] [177] 178 +51 | 178 v 


E 


926 有效 数据 
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项 目的 基本 流程 就 是 这 样 了 ， 首 先 分 析 这 178 个 页 面 ， 获 取 电 影 名 字 和 电影 链接 ， 然 后 
到 链接 页 面 获 取 电 影 的 具体 信息 ， 比 如 放映 时 间 、 电 影 主演 、 下 载 地 址 等 。 


9.3.2 ERAS 


在 浏览 器 中 打开 Pyspider 的 webui (Pyspider 控制 台 ) ， 单 击 Create 按钮 创建 新 项 目 。 
项 目 名 为 oumeiMovie， 起 始 地 址 可 以 为 空 。 单 击 Create 按钮 进入 调试 界面 。 

与 上 一 个 项 目 youkuHotTvList 不 同 ， 这 个 项 目 需要 疏 去 的 页 面 比较 多 ， 目 前 是 178 Ui. 
在 函数 on start 回调 index page 函数 之 前 ， 必 须 先 把 所 有 需要 怜 的 页 面 统计 出 来 ， 因 此 在 
Handler 类 中 添加 一 个 构造 函数 ， 用 来 统计 息 取 的 页 面 ， 再 到 on start 函数 中 ， 循 环 回调 
index page 函数 处 理 这 些 页 面 ， 如 图 9-27 所 示 。 


DD) oumeiMoive - Debugc x 


€ > QC |O 192.168.1.80:5000/debug/oumeiMoive % x 


pyspider > oumeiMoive Documentation | WebDAV Mode | 
[ = 
: i 5 14.03.00 
ascmstamt 


from pyspider.libs.base handler import * 


class Handler Gaseliandler) 
crawl config = | 
i 


det. init__(self) 
wls = 
T imorange(l, 178 + 1) 
" http://www. ydye. com/htal/ gndy /omei/list 7.’ + str(page) + 
“hal 
self. urls. append(url) 


every (ninztese24 * 60) 
det en etc eni): 
for url 


pelt. cravilarl, callbackeself. index page) 


config (age-10 © 60 + 
det dide COEUR. eie 


or each in 
gemponas. doct abusi Car T) dina 
7 elf. crawl (cach. attr. href, 


cal Ibackesel£. detail. pae) 


— E contig priority) 
ows | [ messages def detail page(solf, response) 


htm!) [ 


(enable css selector helper) EAD um i 


图 9-27 AERA 


单 击 页 面 右 侧 代码 编辑 区 右上 角 的 save 按钮 后 ， 单 击 页 面 左 侧 预览 区 右上 角 的 Run 4% 
钮 ， 执 行 结果 如 图 9-28 所 示 。 
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D) oumeiMoive - Debugc x 


€ C | @ 192.168.1.80:5000/debug/cumeiMoive 


Dr 


pyspider > oumeiMoive 


1 | run B 
"process": { 
"callback": "on start" 
i 


“project”: "oumeiMoive", 
“taskid”: “date ,on start", 
“data:, m start" 


l : 
index page > Fi - 


{ 
“fetch’: Du 


“process”: [ 
“callback” 
b 


“project”: 


"index page" 


"oueilloive", 


^askid": *90890c6Bda575203a35214 Lade38 2302". 
url. “http: Hv. vei con eal eriiy/ omes Vist 


lex page > bite 


|dex page > 


dex page > http//www ygdy8 


dex page > http 


] [SED messages 


enable css selector helper 


Documentation { WebDAV Mode 


from pyspider. Libs. base handler import * 


class Handler BaseHandler) 
crawl_contig = { 
1 


def imt (self) 
self.urls = [] 
for page in range(!, 178 + 1) 
url = 


“Http: few. iy conta endy/ormei/List_ T.” 


str (page) 


‘self, urls. append(ur1) 


Gevery(nimtes=24 * 60) 
def on start (self) 
for url in selfurls 
18, ers (url, 
callback=self. index_page) 


config (age=10 + 24 * 60» 60) 
dot indox_pago(zolf, reqponce) 


callback-self. detail page) 


contis (priority=2) 

def detail page(self, response) 
return { 

curl”: response.url, 


response. doc(’tatle’).text(), 
1 


图 9-28 ERA OHH 


显示 有 0178 页 ， 与 设计 结果 相符 。 


数 。 在 这 个 函数 中 获取 电影 名 称 和 电影 下 载 的 页 面 ， 


url 显示 也 是 正常 的 。 继 续 下 一 步 ， 修 改 index page FRI 


然后 通过 电影 下 载 页 面 链接 回调 


detail page 函数 获取 最 终 的 数据 。 打 开 页 面 源码 ， 找 到 离 有 效 数 据 最 近 的 标签 。 这 里 离 有 效 


数据 最 近 ， 也 最 容易 识别 的 是 Table 标签 ， 如 图 9-29 所 示 。 


D) oumeiMoive - Debug: X / 


D) view-sourcewwwygd X 


C | © view-sourcewww.ygdy8.com/html/andy/oumei/index html * 
237| </aiv> 
238 | <div clase" [Stable vide "10096" avax 
239 div clasmsitle gy fert coloretMOG600>¢a href='http: // 


(wen yuya vum -mao 
href=’ /htad/mndy/ index. html’ »IBB/ a>><a href=" /htal/gndy/cumei index. html’ ^88 3</a>></font </h1></div> 


240 <div clase co, contentB^ 

241 | a 

242 

243 Ktd height="220" valign="top" >} MESIME |border="0" cellspacing="0" cellpadding="0" cl: tbspan" 
style=" nargin-top: 6px^^ 

244 kao 

245 | Ktd heighte"l" colspare"2" backtrounde" /tenplets/ ing/dot. ber. gif" ></td> 

246 | Ke 

24 eo 

248 | Ktd width=" s" pee 26" alipm"center' Xing sr="/templets/ine/item gif” width 18" height="17"></td> 

249 

250 

251 <a classulink href=’ /btal/ gndy/jddy/ index. htal' > [RAME] </> 

252 <a href=" /htnl gndy/ jddy/20171210/85777. heal” class-^ulink' 201 ESTAR « BT» EDA SERE </a> 

253|| </> 

254 | ke 

255 | K/tr> 

256| t 

257 | Ktd heighte"20" style="padding-left: 3px">tnbsp: </td> 

258| Ktd style="padding-lett: 3pe”> 

259 <font color="#EFBC89") 日 期: 2017-12-10 18:57:55 

260| 点击 : 0 </tont> 

261 

262 ha 

263| k/tr> 

264 |Ktr> 

265 上 td colspan="2" style="padding lett: 3px > MRI] [3D-akev. 720p. 中 英 双 字 ] [2017 FH] OF 名 ATH OR 名 
Thelma Ot fÈ 2017 OF 地 挪 成 /法 国 /丹麦 / 瑞 奥 OX 别 剧情 /奇幻 /惊悚 / 同性 C8 言 挪 咸 语 OF M HARSH 
加 DIDb 评 分 7 4/10 fron 2, 152 users QED 6.8/10 from 377 users O</td 

266) kte 

267 </table table widebe"IDOW border 0" collspacin="O" cellpadding="0" clase tbspam ztyle- margin-tep: 6g ^ 

260| de 

269 | <td height-"l" colspar"2" background" /templets/ing/dot. hor. gif” </t@ 

270| </tr> 

201 ap 
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图 9-29 页 面 源码 中 定位 有 效 数 据 标签 


查找 显示 有 25 个 相同 的 标签 ， 这 与 页 面 显示 是 相符 合 的 。 根 据 查 找 得 到 的 标签 ， 修 改 


index_page 函数 ， 如 图 9-30 所 示 。 


在 index_page 函数 中 并 没有 使 用 pyquery 定位 过 滤 ， 而 是 使 用 的 bs4 定位 过 滤 。 这 是 因 
为 所 需 数据 movieName 存在 于 <a> 标 签 内 ， 而 在 <a> 标 签 附近 有 一 个 与 它 属性 完全 相同 的 <a> 
标签 。 如 果 使 用 pyquery 来 定位 ， 要 么 用 next 方法 来 分 辨 ， 要 么 添加 条 件 判断 来 分 辨 ， 不 如 
bs4 方便 。 现 在 来 测试 一 下 结果 ， 单 击 Run 按钮 ， 选 择 页 面 预览 栏 下 面 任意 一 个 链接 ， 单 击 
右 侧 的 三 角 运 行 按钮 ， 如 图 9-31 所 示 。 


pyspider > oumeiMoive 


“process”: { 
“callback”: "an start" 


"project": "oumeilloive", 


D] oumeiMoive -Debugc x \ [] viewsourcemwwgd, X 


€ Œ | © 192.168.1.80:5000/debug/oumeiMoive ®t 


EA Nn 4 “title 
E (htm!) (follows) (messages) response. doc title"). text, 
[enable css selector helper ) i 


Documentation ( WebDAV Mode ) 
| run | ENS 777 self. urls, append(ur]) 


Gevery(nimtes=24 * 60) 
def on start (self) 

for url in self.urls: 

4 self. crawl ur], 
callbackeself.index page) 


config (age=10 * 24 * 60 * 60) 
def index page(self, response) 
soup = BesutifulSoup(response. text, 
^3) 


Tags = sow.find all('tsble', attrs= 
{'width’:" 1008", "border: 0", "cellspacing': 0", 
' class; tbspan', " style’ :' margin-top: 6px'}) 
for tag in Tags 
movieName = tag.find all(a') 


I1]. get, text 0 
movielref = tag. find all (‘a’) 

[71]. get ('href’ ) 

url = "http: //wnew.yedy8. con’ + 


movielref 


4 self. crawl (url, 
callbackeself.detail page, save={’ movieNane’ 
novieNane}) 


contis (prioritye2) 
def detail page(self, response) 

return 
“url”: response.url, 


图 9-30 ”修改 index page 函数 
从 中 可 以 看 出 ，index_page 函数 解析 出 了 25 个 结果 。 这 与 页 面 源码 中 搜索 得 到 的 结果 是 


相符 的 。 息 忠 程 序 的 下 一 步 是 使 用 
hb. 


[] 


调 detail page 函数 ， 用 于 处 理 得 到 的 下 载 页 面 链 接地 
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| / DD oumeiMoive - Debugc x XD view-sourcewawygd x 


€ CŒ | © 192.168.1.80:5000/debug/oumeiMoive i 


pyspider > oumeiMoive Documentation | WebDAV Mode 


self, urls. append(url) 


Gevery(nimtes=24 * 60) 
def on start(self): 
3 for url in self.urls: 
24 self. crawl ur], 
callbackeself.index page) 


Gconfig(agem10 * 24 * 60 * 60) 
def index page(self, response) 
j soup = BesutifulSoup(response. text, 
“save: { "al ) 
“novieNane”: “207TH (THY eomm 3 Tags = sow.find all(tsble', attrs= 
{'width’:"1008", "border’ :"0", "cellspacing':'0' 
n "class .tbspn, ‘style’ :" margin-top: 6px’ ]) 
“process”: | j for tag in Tags 
“callback”; "detail page" i! movieNane = tag. find all('a') 
] [1]. get. text 0 
"project": “oumeiMoive”, 3 novieHref = tag.find all(’s’) 
“schedule”: [ [1]. get Chref") 
“priority”: 2 » url = ‘http://www. yedy8..con’ + 
novieliret 


taskid", "c263569553b9£96cd5d8e0763451£902" — selt. crl (url, 
"url': "http: // www. ygdy8. com/htal/gndy/ jddy/2017121 callbackeself.detail page, save={'movieNane’ 
H novieNane}) 


detail page > http/wwwygdy8.com... ~ 36 

e RS EH Aerial = 3 conf is (priority?) 
detail page > http//www ygdy8 com.. 39 def detail page (self, response): 
detail page > htip//wwwygdy&com.. = D "S ‘casei 

aw i2 "title" 
detail Ff web Jf htm! HERI messages | response. doc(’title’),text(), 
detail ence — es enable css selector helper)". 1 ' 
图 9-31 获取 页 面 下 载 页 


注意 ， 这 个 回调 函数 self.crawl(url, callback=self.detail_page, save={‘movieName’: 


movieName}) 与 Pyspider 默认 的 回调 函数 略 有 不 同 ， 这 里 多 出 了 一 个 save 的 字典 参数 。 这 个 


参 
也 
示 
因 


只 


回 


数 很 重要 ， 有 时 候 index_page 函数 需要 将 一 些 参数 传递 给 detail page 函数 〈 在 这 个 爬虫 中 
可 以 不 要 ， 因 为 在 下 一 步 detail page 函数 中 也 可 以 解析 得 到 movieName， 这 里 只 是 做 演 
) 。 但 两 个 函数 都 是 回调 函数 ， 是 无 法 直接 传递 参数 的 。 使 用 全 局 变量 传递 参数 也 不 行 ， 

为 Pyspider 采用 的 是 广度 优先 算法 深度 优先 算法 倒是 可 以 用 全 局 变量 传 参 ) ， 全 局 变量 
能 传递 最 后 一 个 页 面 的 参数 。 因 此 这 里 不 得 不 借助 其 他 的 参数 来 传递 值 。 再 来 仔细 看 一 下 
调 的 函数 detail page， 它 定义 的 是 def detail_page(self, response)， 只 带 有 一 个 参数 


response。 这 就 意味 着 如 果 index page 函数 需要 传 参 给 detail page 函数 ， 就 只 能 借助 response 
这 个 参数 来 传递 了 。response 这 个 参数 是 怎么 样 的 呢 ? 它 来 自 于 Pyspider 的 安装 目录 下 的 
lib/response.py ， 上 有 具体 到 本 例 就 是 /usrlocallib/Python 2.7/dis-packages/pyspider-0.3.10_dev- 
py2.7.egg/pyspider/libs/response.py。 到 该 目录 下 执行 命令 : 


执行 结果 如 图 9-32 所 示 。 
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iP kingGdebian&: ~ 一 口 x 


class Response (object): 


def init__(self, status code-None, url-None, orig url-None, headers=Ca 
seInsensitiveDict(), 
2 content="', cookies-None, error-None, traceback-None, | save= 
None, js script result-None, time-0): 
if cookies is None: 
cookies = {} 
self.status_code = status_code 
29 self.url = url 
self.orig url = orig url 
31 self.headers = headers 
32 self.content = content 
self.cookies = cookies 
34 self.error = error 
5 self.traceback = traceback 
6 self.save = save 
self.js script result = js script result 
self.time = time 


4 def repr (self): 
sg return u'<Response [td]»' $ self.status code 


图 9-32 ”使 用 save 参数 传 值 
这 里 save 定义 的 是 None， 其 实 可 以 将 save 定义 为 任何 类 型 。 也 许 会 有 多 个 值 需要 传 
递 ， 还 是 将 save 定义 为 字典 更 方便 。 
回 到 有 怜 虫 程序 ， 继 续 下 一 步 。 利 用 save 传递 参数 ， 修 改 detail page 函数 ， 获 取 最 终 需 要 
的 数据 。 任 意 挑选 一 个 电影 下 载 页 面 的 链接 在 浏览 器 中 打开 ， 如 图 9-33 所 示 。 


m 


b = x 
D 2017s ai x \ [3] vie ‘ygdy x 
C | O www.ygdy&.com/ntml/gndy/jddy/20171210/55777.html *| 

"ZUIVER TECA JO (GER » 
2017508055 8RI 《到 我 们 音 Eu 
20175 tea) (REME 44 Es 
X20178BMBCI-KBI 《不 是 机 |。 年 代 2017 
,2017 驯 国 KBS2 水 木 到 《时 柱 十 VARR 
JOIZENIWNBXR COND ean e 
‘201 7HRIKES2AXR Ougole |。 语 m sms : 
O017RBSBSRÜR (RFE |e m FENIS 


,2017 年 内 地 电视 划 《海上 牧 去 
'2017 主 打 美 副 《 神 竺 局 特工 
“2017 韩 国 SBS 月 火 剧 (REGIS 


esIMDb 评 分 7.4/10 from 2,152 users 

HBAS 6.8/10 from 377 users 

:文件 格式 X264 + aac 

MR 1280x720 

es 文件 大 小 1CD 

ee 长 11684 

eS A IRER Joachim Trier 

c= b 文 伦 . 多 丽 特 . 枝 得 村 Ellen Dorrit Petersen 
S357 LETH Henrik Rafaelsen 
SHSNC-BEH. Anders Mossling 
RUSf-f8f&8| Vanessa Borgli 
Eili Harboe 
Kaya Wilkins 
Marte Magnusdotter Solem 


em 介 


Ses RARE Tmt (RTS) IEZUTIB , BSNS TRS. RS 
ESRATROOES , CRULTSSPISUSCUR, 7 


图 9-33 ”电影 下 载 页 面 
查看 该 页 面 的 源 代码 ， 找 到 这 些 有 效 数据 的 位 置 ， 如 图 9-34 所 示 。 
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Dp corrects GS x )/ [) view-sourcewwwygd: x 


C | © view-sourcewww.ygdyB.com/ntrml/gndy/jdd: * 
e 
ctd colspane" 2 nbsp: /tt 
ne 
tr: 
td colspan- align-"center" valign="top" ><div align-"left'jidiv 


style="float: right: margin: Spx: "> <script longuage-javascript sxo~“Lisw/120. is"></script></div><div id" Toon? 
XI 一 Centert Start—><opan stylo="FONT-SIZE: 12px" ><td> 

RI] ED-akv 720p. h ARF] (201 FRL] “br />br /><ing border=” 0" 

Sree ED /es areto OYE IRAE EN wpe A107 TAE. BURESO car TOR 3i Thelma] 
Qr POF f 2017 Gr HOE v NE GB/REmG or HOS B METANA or PO 

iB E 挪威 语 br OOF 2 MAE br /> 人 IDb 评 分 7. 4/10 from 2 152 users br MOSM 68/10 
from 317 users br /> 加 文件 格式 x264 + aac (br PORBRA 1280 x 720 dr DO XftA 10 br POR 

X 11699 br 505 A 约 阿 希 姆 kmiddot- 担 尔 Joachim Trier br DOE RB 艾 伦 tniddot: 杀 丽 特 tmiddot: 筱 
183; Ellen Dorrit Petersen <br /> TREE PENRE Henrik Rafaelsen <br /) sim 
middot MEH Anders Koesling gr / Aisidát: BEH Yaneens Bareli br /> 


Harboe <br /> Kaya Wilkins <br /> larte Nagnusdottei br /»br NOA 

SEL, SEF Re IEEE Cana» Exo NOIRES (oT mama = 
skil vi 

border="0” src= "ben ET a p, 


Ae oie econ rae 
f0000*»«tont size-74^» 【下载 地 址 ] <font ></font></strong> br /yqbr f»xr f» 
237 <table style-"BORDER-DOTTOM: Scccccc lpx dotted, BORDER-LEFT. Wcccccc lpx dotted, TABLE-LAYOUT. fixed, BORDER- 
TOP: Wcocccc lpx dotted: BORDER-RIGHT: Scccccc ipx dotted” border-^0" cellepacing- 0" cellpadding~"6" 
width=" 06%" align-"conter^» 
39 <tbody> 
39 E 
0 


<td style= WORD-WRAP. brea-ward™ bec 

href="ftp://yedy8: vedvO@ved5. dydytt.net : 7088/ ERE Bevery sehe. met). BRB. BD. 720p. PHT 

WB. mkv ftp: //yzdy8: ygdy9@ye45. dydytt. net. 7088/ [阳光 电影 wv. yzdy8.net ]. 西 尔 玛 .BD. 720p. o 
Jr 


</tbody> 
</table> <br> <center>“/center> 


图 9-34 ”源码 中 有 效 数据 


电影 下 载 链接 的 定位 和 过 滤 不 难 ， 不 管 是 用 bs4 还 是 pyquery 都 很 简单 ， 但 电影 信息 就 有 点 
麻烦 了 。 因 为 源 代码 中 电影 信息 内 使 用 了 大 量 的 <br 户 标 签 。 众 所 周知 ，<br 户 标 签 是 由 
<br>…</br> 标 签 组 “进化 ”而 来 的 ， 但 bs4 和 pyquery 都 只 能 从 闭合 的 标签 组 中 过 滤 出 有 效 数 据 

至 少 目前 是 如 此 ) 。 所 以 在 这 里 要 过 滤 出 电影 的 信息 ， 就 要 先 把 <br 记 标 签 过 滤 出 去 ， 然 后 在 剩 
rs re 模块 来 过 滤 有 效 信息 。 因 此 ， 修 改 聆 虫 中 函数 detail page， 如 图 9-35 所 示 。 


[7] 
D WPRO (ET x | [À view-sourcewwmygd X y [3] oumeiMoive - Debug: X 


€ > C [O 192.168.1.805000/debug/oumeiMoive €**jO 9-909: 
r > oumeiMoive umentation | WebDAV Mode J 


‘tag. findall(' a’) 11. eet tAE 
novieliret = tag. tind-alll 
Lil. get hrot) 
4 "http://www. yedy. con’ + moviclzef 
self.cravl(utl, callback-self, detail pags, 
savef novielians’ sovisiame]) 


confie (priority-2) 
def detail page (self, response) 
movisse ~ response. seve. 
tal = re.sib( br /> (1.5) 


if ro, search(key, zt) 
Gat Dic They] = re. sih key, Us 


break 


him! MEGION" messages ] 
p—"ma 7771 


(enable css selector helper) @ 


$935 过滤 电 影 有 效 信息 
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Fe t E TE A DU FS A EX 7 EFA Save ARFERIR, PER dh vd rr 7c A 
预览 区 右上 角 的 Run 按钮 ， 在 左 侧 页 面 预览 区 下 部 过 滤 得 出 最 终 所 需 的 有 效 数 据 。 


9.3.3 


Témisfr. Wait 


MENERA Ease BP, HLT — B. Par GU zC EPA pyspider 链接 ， 
或 者 在 地 址 栏 中 输入 Pypider E 1P:5000, BEA Pyspider 主 界面 〈 控 制 台 ) 。 

f^ Pe du R EJ Y 7 列 ， 分 别 为 Group. Project Name, Status, rate/burst, avg time, 
Progress, Actions. 


Group: 组 名 是 可 以 修改 的 ， 直 接 在 组 名 上 单 击 进行 修改 。 如 果 需 要 对 爬虫 进行 标 
记 ， 可 以 通过 修改 组 名 来 完成 。 


pe =] 组 名 改 为 delete 后 如 果 状 态 为 stop KA, 24 小 时 后 项 目 会 被 系统 删除 。 | 


Project Name: 项 目 名 只 能 在 开始 创建 时 确定 ， 不 可 修改 。 

Status: 显示 的 是 当前 项 目的 运行 状态 。 每 个 项 目的 运行 状态 都 是 单独 设置 的 。 直 接 
在 每 个 项 目的 运行 状态 上 单 击 进行 修改 。 运 行 分 为 五 个 状态 : TODO. STOP. 
CHECKING, DEBUG, RUNNING, 

各 状态 说 明 : TODO 是 新 建 项 目 后 的 默认 状态 ， 不 会 运行 项 目 ; STOP 状态 是 停止 
状态 ， 也 不 会 运行 ; CHECKING 是 修改 项 目 代码 后 自动 变 的 状态 ; DEBUG 是 调试 
模式 ， 遇 到 错误 信息 会 停止 继续 运行 ; RUNNING 是 运行 状态 ， 遇 到 错误 会 自动 举 
试 ， 如 果 还 是 错误 会 跳 过 错误 的 任务 继续 运行 。 

Rate/Burst: 这 一 列 是 速度 控制 。Rate 是 每 秒 爬 取 的 页 面 数 ，Burst 是 并 发 数 。 默 认 
情况 下 是 1/3， 意 思 是 每 秒 3 个 并 发 ， 每 个 并 发 展 一 个 页 面 。 这 一 项 是 可 以 调整 
的 ， 如 果 被 爬 的 网 站 没 做 什么 限制 ， 可 以 把 这 个 数 稍微 调 高 一 点 。 

Avg Time: 平均 运行 时 间 。 

Progress: 爬虫 进展 统计 。 一 个 简单 的 运行 状态 统计 。5m 是 五 分 钟 内 任务 执行 情 
JL, Dh 是 一 小 时 内 运行 任务 统计 ，1d 是 一 天 内 运行 统计 ，all 是 所 有 的 任务 统计 。 
Actions: 这 一 列 包 含 了 3 个 按钮 ， 即 Run. Active Tasks. Results. run 按钮 是 项 目 
初次 运行 需要 点 的 按钮 ， 这 个 功能 会 运行 项 目的 on statt 方法 来 生成 入 口 任务 。 
Active Tasks 按钮 显示 最 新 任务 列表 ， 方 便 查 看 状态 ， 查 看 错误 。Results 按钮 查看 
LEES CT 


FH ne c HARE SEA. Are ARAN TODO, Jd; TODO 状态 ， 在 弹出 的 菜单 中 将 
状态 修改 为 DEBUG (也 可 以 选择 RUNNING) ， 如 图 9-36 所 示 。 
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Python WERKER (第 2 版 ) 


Dp 207588958 (Ee x)/ [) Dashboard - pyspider x \ W 
€ > QC |O 192168.1.80:5000 


pyspider dashboard 


scheduler 0 fetcher result worker 


oro 


Recent Active Tasks 修改 项 目 状 志 为 DE8UG 


Profectname status ratelburst avg time actions 


oumeimove | EEE) | Tooo TB x BDO E3 [vw 


[r3 
storyB0ox =e C 轩 四 EB wwe 
[RUNNING | [3 


youkuHotTVList 43 m GC ap wwe 


Results 


图 9-36 修改 项 目 运行 状态 


默认 的 速度 是 每 秒 3 次 ， 这 个 速度 太 慢 了 。 单 击 项 目的 Rate/Burst 7), BOR AAE 
取 页 面 的 速度 ， 暂 时 修改 为 3/110， 如 图 9-37 所 示 。 


Dp 20078 Rome Gr x [ Dathboard - pyspider x 
€ > C [O 不安 全 | 192168..805000 


pyspider dashboard 


scheduler 0 tetcher 


0+0 


fece RR PEE]. 


gap ppan caus = avg time pus 


cumelolve [9 [»» E * m 


storyBook 1 soos 
s 


youxuHetTvList 12 soc 
t 


图 9-37 edu 


设置 完毕 后 ， 单 击 项 目 右 侧 的 Run 按钮 ， 开 始 运行 朴 虫 。 稍 等 几 分 钟 后 就 会 有 结果 出 现 
了 。 单 击 项 目 右 侧 的 Results 按钮 ， 如 图 9-38 HZR o 
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D 2017480 (ET x | [Ì Dashboard -pyspider x j [) Results-oumeiMovie x 


© | © 192.168.1.80:5000/results?project=oumeiMovie *| 


oumeiMovie - Results [Son] cxi E 
Txt 格式 csvi 


IMDb * x 
downUr 评分 movieName 演 地 长 


pilldyg ™ "09 最 新 恐怖 "SR 0 "80mi ™ 
od2:dyg H GEGR Hami n" 
od2@d0 像 2180 分 钟 。 ddot 

03.dygo FCS) 沃 拉 靳 

d.org:80 DvD 中字 Ma 

RÈ 

录像 2DV 

D 中 英 双 

Fae 

Faw 

w.dygod. 

omg] 死 亡 

录像 2DV 

D 中 英 双 

字 rmvb" 


图 9-38 MERA 


在 页 面 右 上 角 选 择 保存 的 格式 ， 可 以 保存 为 json. txt. csv 三 种 格式 (基本 上 是 够 用 


m 


的 ) 。 回 


到 Pyspider 控制 台 ， 单 击 项 目 右 侧 的 Active Tasks 按钮 ， 如 图 9-39 所 示 。 


D) 2orseEMOUNE Ete x ， 癌 Dashboard - pyspider x; [Y Taske - pyspider 


© | © 192.168.1.80:5000/tasks?project=oumeiMovie DES 


ago 113.9+0.28ms +0 


ymeintovie > http-/ :om/html/gndy/iddy/20170314/53486 html s minutes ago 
26.3+8.50ms +0 


ESSE oume were > http://www ygdy8.com/html/gndy/oumei/list 7_156 html 6 minutes ago 


215.9447 47ms +25 


ESSE oumeimovie > http://www ygdy8 com/html/gndy/oumei/list 7 17 html 5 minutes ago 
163 7+45 91ms +25 


[FETCH ERROR Pees Jh tmlgndy/ 217/2352 | 5 minutes 
ago 115.6+0.31ms «0 


‘oumeiMovie > http://www ygdy8 convhtml/andy/iddy/20091222/23609 html minutes ago 


160.7+17.43ms +0 


‘oumeiMoyie > hltp://www.ygdy8.com/html/gndy/dyzz/20091223/23620 html § minutes ago 


163 9+9 92ms +0 


oumeiMovie > http://www yady8.com/htmVandy/dyzz/20091220/23585 html 6 minutes 
go 113.6+1.13ms +0 


oumeiMovie > http://www ygdy8 com/htmVandy/iddy/20091220/23582 html 5 minutes ago 


156.5+18.14ms +0 


‘oumeiMovie > http:/www yady8. convhtmV/andy/iddy/20091217/23522 html s minutes ago 


163.1+40.94ms +0 


oumeiMovie > http://www ygdy8.com/html/gndy/jddy/20091223/23627 html 5 minutes ago 
165.9+8.75ms +0 
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显示 有 2 次 错误 。 单 击 错误 链接 查看 错误 原因 ， 一 般 都 是 因为 bs4 按照 过 滤 条 件 没有 获 
取 到 合适 的 结果 造成 的 ， 按 照 提 示 修 改 让 虫 代码 。 最 终 修改 后 的 爬虫 代码 如 下 : 


1 #!/usr/bin/env python 

2 # -*- encoding: utf-8 -*- 

3 # Created on 2017-12-15 14:03:00 
4 # Project: oumeiMovie 
5 
6 
7 
8 
9 


from pyspider.libs.base handler import * 
from bs4 import BeautifulSoup 

import re 

import codecs 


10 

ii 

12 class Handler (BaseHandler): 

T3 crawl config = ( 

14 } 

15, 

16 def init (self): 

ET self.urls = [] 

18 for page in range(1, 178 + 1): 

19 url = 'http://www.ygdy8.com/html/gndy/oumei/list_7_' + 
str (page) + '.html' 

20 self.urls.append (url) 

21 

22 @every (minutes=24 * 60) 

23 def on_start (self): 

24 for url in self.urls: 

25 self.crawl(url, callback=self.index_page) 

26 

27 @config(age=10 * 24 * 60 * 60) 

28 def index page(self, response): 

29 soup = BeautifulSoup(response.text, 'lxml') 

30 Ery: 

31 Tags = soup.find_all('table', attrs={'width':'100%', 
"border';'0', 'cellspacing':'0', 'class':'tbspan', ‘style ':'margin- 
top:6px']) 

22 except Exception as e: 

33 pass 

34 for tag in Tags: 

35 Ery: 

36 movieName = tag.find all('a')[-1].get text() 

37 movieHref = tag.find all('a')[-1].get('href') 

38 url = 'http://www.ygdy8.com' + movieHref 

39 except Exception as e: 

40 pass 

41 self.crawl(url, callback=self.detail page, save={'movieName': 
movieName]) 

42 

43 
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44 @config(priority=2) 


45 def detail page(self, response): 

46 movieName = response.save.get ('movieName') 

47 html = re.sub('«br />{1,5}', '', response.text) 

48 try: 

49 dataStr = re.search(u'O.*<', html) .group() 

50 except Exception as e: 

51 pass 

52 soup = BeautifulSoup(response.text, 'lxml') 

53 try: 

54 hrefTag = soup.find('td', attrs-('style':'WORD-WRAP: break- 
word', 'bgcolor': '#fdfddf'}) 

55 href - hrefTag.find('a').get('href') 

56 except Exception as e: 

Si pass 

58 dataList = dataStr.split(u'0') 

59 dataDic = (u'PEA':'', wR 2! , wR utes ut ea 

60 u' 语 言 ':'' ，u' 字 幕 ':'' ，u'IMDb 评分 itt, at REPS) 
ena o, a'X4HOAI:'' , u'downUrl 1: href,\ 

61 URS" , ul CHA , ues) | ur, 
u'EXi't o, ul fil 

ft ':'', u'movieName' :movieName} 

62 for key in dataDic.keys(): 

63 for st in dataList: 

64 if re.search(key, st): 

65 dataDic[key] = re.sub(key, '', st) 

66 break 

67 return dataDic 


aa 在 中 文字 符 前 加 上 u， 意 思 是 指 字符 编码 为 unicode。 


解决 方法 起 始 很 简单 ， 只 要 在 bs4 搜索 结果 时 加 上 except 就 可 以 了 。 好 了 ， 现 在 已 经 将 


We du AES EH. DRE TR IRIS] Pyspider 控制 台 。 


Lr 


I; oumeiMovie 项 目 中 的 Run 按钮 ， 观 


察 Active Tasks 的 结果 ， 却 发 现 Pyspider 疏 虫 昌 然 从 入 口 启 动 ， 但 并 没有 真正 地 开始 作业 。 


这 是 因为 Pyspider 疏 虫 除了 第 一 次 运行 时 是 用 单 


H Run 按钮 启动 的 ， 之 后 朴 虫 的 运行 是 由 代 


码 中 的 scheduler〈 调 度 器 ) 控制 的 ， 如 图 9-40 所 示 。 
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D) oumeiMovie - Debug: x 


€ > C [O 192.168.1.80:5000/debug/oumeiMovie DES 
pyspider > oumeiMovie Documentation | WebDAV Mode | 
Ü 2 
er EE uem Ez 
"callback": "on start" " def on start Geld) 
ie 5 for url in self. urls: 
“project”: “ouneillovie”, self. crawl (url, 
Neri "data: on start", callback=self. index page) 
eed aat = 


} ri Gconfig(age=10 * 24 * 60 * 60) 


def peni response) 
= BeautifulSoup (response. text, * lanl’) 
uy 
Tags = soup, find all( table’, attrs= 
{ width’ :" 100%", "border':'0', ”cellspacing 0， 
“class’:'tbspan’, ‘style’ :'margirrtop: 6px’ ]) 
except Exception as e: 


pass 
for tag in Tags: 
try 


novieName = tag. find_all(’ a’) 


C1). get text. 

movieiref = tag. find_all (‘a’) 
(1). get C href’) 

url = "http://www. yedy8. com + 
novieliret 


except Exception as e 


self. crawl (url, 
callback=self. detail_page, save={' noviellane’: novieNane} ) 


config (priority=2) 
def detail_page(self, response) 
‘ seville = responso. save. get movie") 
[html] (follows] [messages] | « Heal = re. subt cbr /2 [1.8] 
| enable css selector helper | oe he 


图 9-40 Pyspider scheduler 


从 图 9-40 中 可 以 看 到 ， 在 Pyspider 默认 定义 的 三 个 函数 的 上 一 行 中 有 一 个 以 @ 开 头 的 函 
数 。 这 个 是 Python 的 装饰 器 。 装 饰 器 是 Python 的 高 阶 函数 ， 这 里 不 做 解释 。 有 兴趣 的 读者 
可 自行 上 网 搜索 学 习 。@every(minutes=24*60) 在 这 里 是 作为 调度 器 使 用 的 ， 意 思 是 on start 
函数 每 天 执行 一 次 。@config(age=10*24*60*60) 也 是 调度 器 ， 意 思 是 当前 request 的 有 效 期 是 
10 天 ，10 天 内 遇 到 相同 的 请 求 将 忽略 。 最 后 @config(priority=2) 是 优先 级 设置 ， 数 字 越 大 就 
越 先 执行 。 没 有 特殊 要 求 ， 一 般 不 需要 修改 默认 的 设置 。 


9.3.4 删除 项 目 


项 目 运行 完毕 ， 得 到 了 想 要 的 结果 。 保 存 好 结果 ， 这 个 项 目 就 没什么 用 处 了 。 下 一 步 就 
是 删除 项 目 了 。 删 除 Pyspider 项 目的 方法 有 两 种 。 


(1) 方法 一 : 官方 推荐 常规 的 删除 方法 是 将 需要 删除 的 项 目 状态 设置 为 STOP， 然 后 把 
项 目的 Group 修改 为 delete， 如 图 9-41 所 示 。 
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[ Dashboard - pyspider x 


€ C |O S | 192.168.1.80:5000 [ES 
pyspider dashboard 
scheduler 0 fetcher 0 processor 0 result worker 
0+0 


Recent Ac Tasis 


group project name progress 


status rate/burst avg time actions 

[group] ^ oumeiMovie DEBUG 113 团团 四 EW wwe 
Results 

[group] ^ storyBook | RUNNING [BIE] oop Eep kun) Active tas 
Results 

delete test STOP 13 E m D Ep Run || active tag! 
Results 

[group] = youkuHotrvList [ERNIE 1/3 o m OD BD sq Active tas 
Results 


图 9-41 删除 项 目 常规 方法 


在 24 小 时 后 ，Pyspider 的 服务 端 就 将 该 项 目 删除 了 。 这 是 为 了 给 性 急 的 用 户 一 个 后 悔 的 
机 会 ， 如 果 认定 不 后 悔 ， 那 就 参考 方法 二 。 


(2) 方法 二 : 在 前 面 的 章节 曾 提 过 ，Pyspider 所 有 的 文档 都 保存 在 启动 Pyspider 的 目录 
下 的 data 文件 夹 中 ， 而 所 有 的 项 目 都 保存 在 data 文件 夹 下 的 project.db 文档 内 ， 因 此 删除 
Pyspider 项 目 ， 只 需要 在 project.db 文档 中 删除 相应 的 记录 就 可 以 了 。 执 行 命令 : 

ls 

cd data 

ls 

sqlite3 project .db 

.tables 


select name from projectdb; 
delete from projectdb where name-'test'; 


du 如 果 没有 安装 Sqlite3 ， 则 需要 使 用 apt-get 安装 。 | 
执行 结果 如 图 9-42 所 示 。 
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[The programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUIELY NO WARRANTY, to the extent 
[permitted by applicable law. 
Last login: Fri Dec 22 21:24:54 2017 from 192.168.1.99 
king8debianB:-$ 1s 
code data Desktop Pictures 
$ cd data/ 

:-/data$ 1s 

result.db scheduler.ld scheduler.lh scheduler.all task.db 
king8debian8:-/dataS sqlite3 project.db 
SQLite version 3.8.7.1 2014-10-29 13:59:56 
Enter ".help" for usage hints. 


oukuHotTvList ~ 
qlite> delete from projectdb where name="test'; 


D Dashboard - pyspider x 


S © | © 192.168.1.80:5000 a 女 H 
pyspider dashboard 
scheduler 0 fetcher 0 processor 0 result_worker 
0+0 


Pec Ace Tis 


group project name progress 


‘Status rate/burst avg time actions 

[group] ^ oumeiMovie DEBUG 13 o DD Tl E Rn Active tas 
Results 

[group] ^ storyBook RUNNING i 团团 四 E we 
Results 

[group] ^ youkuHotrvList [UNNI 1/3 o © © GW mw (Active tas 
Results 


图 9-43 ”快速 删除 Pyspider Ji H 
如 果 需 要 修改 项 目的 result、task， 只 需要 用 Sqlite3 命令 修改 相应 的 数据 库 文件 就 


362 


在 使 


PERIKA RGE, A ou 


User-Agent 的 信息 (Python 默认 会 声明 自己 为 
的 网 站 因为 一 些 缘故 无 法 直接 访问 的 还 需要 力 


Pyspider 实战 三 : 音 悦 台 MusicTop 


Python 并 不 能 直接 获取 数据 。 有 的 是 需要 指定 
Python 脚本 ) ， 有 的 是 需要 cookie 数据 ， 还 有 
上 代理 ， 这 时 就 需要 在 Pyspider 中 添加 、 修 改 


headers 数据 加 上 代理 ， 然 后 向 服务 器 提出 请 求 。 相 比 Scrapy 而 言 ，Pyspider 修改 headers, 
添加 代理 更 加 方便 简洁 。 毕 竟 Scrapy 还 需要 修改 中 间 件 ， 而 Pyspider 更 加 类 似 bs4， 直 接 在 
源码 中 修改 就 可 以 达到 目的 。 


9.4.1 项 目 分 析 


这 次 还 是 以 音 悦 台 网 站 为 目标 ， 在 音 悦 台 中 获取 实时 动态 的 音乐 榜 单 。 音 悦 台 中 的 实时 
动态 榜 单 有 5 个 ， 这 里 只 扑 内 地 篇 的 榜 单 ， 如 图 9-44 所 示 。 


从 图 9-44 中 可 以 看 出 ， 这 个 实时 的 榜 单 有 3 页 ， 共 50 首 歌曲 。 只 需要 获 
歌曲 名 、 歌 手 名 、 评 分 以 及 当前 排名 就 可 以 了 。 打 开 页 面 编码 ， 找 到 所 需 数据 的 位 置 ， 如 图 


9-45 所 示 。 


@ ues. mS. x 


€ > C [O vchartyinyuetai.com tr 


pV billboard gaon 


Ea ate ate 


由 自己 决定 BA CRRA HEM 


cB =... 


944 音 悦 台 实时 榜 单 内 地 篇 


区 当前 榜 单 的 
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Python MERKAR E 2 版 ? 


© rms aka E X)/ @ view-sourcenchartyin, x (C7 
Q | @ view-sourcewchartyinyuetai.com/vchart/trends?area- ML... Yr 


[| 
<div class="infoBox top42” name=" scrollárei| 


T <div class-"score box"? 


<h3 class="desc_score”>21.85¢/h>> | -二 一 一 歌曲 评分 


3="vitem J li toggle date * 


<p class-"asc-data clearfix' 

<en class=" score-decs^» en» 

<span class=” decs-nun 5-0. 0044/ span> 
</p> 


</div> 
Wvdaxtpmm 242 di] SAAS 
<div class="av_info"> 
<div class="nv_info_head_ing container J_add_convenient_container”> 
<a class"ing video-bo-ing” href="http: //v. yinyuetai. con/video/3111581” 


target="_blank"> 
Ging src /1T - 


vi 
2af0d03e3egaTbelfd78c7b3c885d4d 240x135. ipg” s1t-^ IDIKEY KING 官方 版 "/> 


<div class="bo-mask”> 
<i class="bo-icon”></i> 

</div> 

a 
<span class="]_add_convenient”title=" 加 入 便捷 悦 单 ”data-video- 
id-"3111581* 
styles" display: none;”></span> 
</div> 


<div class "info > 
<h3> 
<a target="_blank” class="mvname” 
href="http: //v. yinyuetai. com/video/ 3111581" MONKEY KING 官方 版 </a> 


n3» 


图 9-45 榜 单 源码 


疏 虫 所 需 的 所 有 数据 都 在 <li class="vitem J li toggle date " name="dmvLi"> 这 个 标签 里 ， 
只 需要 定位 一 次 ， 就 可 以 得 到 所 有 数据 了 。 


9.4.2 Meas 


XAU SHERRE, P ORA SU A GER AE SR A SE AEE alpha 
版 本 如 图 9-46 所 示 。 
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@ Hexe - BTai -ib x y [] musicTop -Debugger x 
€ C | © 不 安全 | 192.168.1.80:5000/debug/musicTop 图 女 
pyspider > musicTop 
| Em 
“fetch”: ih class Handler (BaseHandler) 
“process”: [ 9 crawl config = [ 
"callback": "index page" 1 } 
n 1 def init (self) 
"project": “msicTop”, 12 url = 
"schedule": { "http: // vchart. yinyuet ai. com/vchart/trends? 
“age”: 864000 area= 了 Lpage=” 
] pags = [1, "2, 3] 
"taskid': "b32c76263876646e2al e6al T5dcf8196" , 4 self.urls = [] 
“url”: 5 for page in pages: 
"http: / /vchart. yinyuetai. com/ vehart /trends? 6 self.urls, append (url + page) 
areclLipage=1” 
} every (ninutes-24 * 60) 


def on start (self) 

for url in self. urls: 

self. crawl (url, 

callback=self. index page) 


别 BA 
04 WS 电 | 


@onfig(age=10 * 24 * 60 * 60) 
e (self, response) 


ittp^]' ). itens() 
self. crawl (each. attr. href, 
self. detail page) 
Tags = response. doc(’ 1i[class="viten 
|.li toggle date "]'). items() 
for subTag in Tags: 

3 top = 

subTag ( div[classe"top nun]. text () 


mwname = 
subTag ( a[class-"nvnsne"]' ). text () 
er = 


) sing 
(web } (htm! [ messages ] sublag ( alclase"special’]).text() 
{ enable css selector helper | ,desc_score = 


图 9-46 测试 alpha ARNE rit 


单 击 网 页 左 侧 页 面 预览 区 右上 方 的 Run 按钮 测试 一 下 。 如 图 9-46 MR, MERZIT IEH o 


EJ 


BILE 3X 4C RIE headers 和 proxy OKH AMERI headers 和 proxy 是 因为 页 面 不 能 返 
BRAN SNC m E, AP uif de n] UL IE UARIIS, WMR headers 和 proxy 只 是 为 


了 做 演示 ) o Ame bak headers 和 proxy 很 简单 ， 只 需要 在 crawl config 中 添加 相应 的 值 就 
可 以 了 。 一般 情况 下 headers 中 只 需要 添加 User-Agent 就 可 以 了 ， 但 有 的 网 页 也 许 会 限制 比 
较 严 格 ， 这 里 添加 的 headers 比较 详细 。Proxy 只 需要 给 一 个 可 以 使 用 的 代理 就 可 以 了 。 单 击 


左 侧 页 面 预览 区 右上 方 的 Run 按钮 测试 一 下 ， 如 图 9-47 所 示 。 
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@ Hens - EST Xx) [] musicTop - Debugger x 
eS C | © 不 安全 | 192.168.1.80:5000/debug/musicTop 图 * 


pyspider > musicTop Documentation | WebDAV Mode 


| run 5m 
“fetch”: { 2 # -*- encoding: utf-8 -#- 
"headers": T 3 # Created on 2018-01-02 21:16:44 
"Accept": 4 # Project. musiclop 
‘text/html, application/xhtaléxal, application/xml; 5 


. 9, image/webp, image/apng, */* :q=0. 8°, 6 from pyspider.libs.base handler inport * 


8| headers = 1 


"Accept" :"text/html, application/xhtaltxnl, applicgt 

ion/xal: q0. 9, inage/ webp, inage/apng, */*; q0. 8', 
“User-Agent”: "Mozilla/5.0 (Windows NT 10 “Accept-Encoding”: “gzip, deflate”, 

10.0: Vin64; x64) AppleWebKit/537.36 (KHTML, like 1 “Accept-Language”: “en-US, en; q0. 9, zh- 
ecko) Chrome/63. 0. 3239.84 Safari/537. 36" Qi; q-0. 8, zh; q0. 7, zh-TV; q0. 6” 
"Cache-Control ": “nax-age=0”, 
“Connection” :"keep-alive", 
4 “User-Agent” :"Mozilla/5.0 (Windows NT 10.0; 
Vin64; x64) AppleWebKit/537. 36 (KHTML, like Gecko) 
Chrone/63, 0. 3239.84 Safari/537. 36” 


process": { 

"callback": "index page" 
h 
“project”; “musicTop”, 
“schedule”: { 
"age": 864000 


proxy "192. 168. 1. 99: 1080" 


class Handler (BaseHandler) " d 
headers’: headers, 
] 'proxy': proxy 


def init (self) 
url = 


raskid": "b32076263876646e2ale6al 75dcf8196", 
url”: 

"http: //vchart. yinyuetai. con/vehart/trends? 
areselLtpagenl" 

1 


"http: //vchart. yinyuet ai. con/vchart/trends? 
area=MLipage~" 
pages = 1," 
self.urls = [] 
for page in pages: 


enable css selector helper 


Ail EXO 


图 9-47 测试 beta HUE 


ED ds H ET DAFT IP VCI DTE PEAS BBE. AR headers 就 可 以 解决 问题 了 。 
浏览 器 需要 使 用 proxy FREI IU, ME tits SE proxy 才能 得 到 数据 。 如 果 网 站 中 
设置 了 反 息 虫 ， 过 滤 频 繁 发 送 请 求 的 IP 的 情况 下 怎么 办 呢 ? 正常 的 应 对 方法 是 使 用 多 个 代理 
服务 器 进行 轮 询 。 通 过 网 络 搜索 得 到 为 Pyspider 加 载 多 个 代理 的 方法 是 使 用 squid 轮 询 。 这 
种 方法 是 可 以 ， 但 需要 安装 squid 软件 ， 而 且 squid 设置 起 来 也 比较 麻烦 。 这 里 采用 更 加 简单 
的 方法 ， 只 要 在 扑 虫 发 送 请 求 的 部 位 ， 随 机 地 从 代理 池 中 挑选 一 个 代理 就 可 以 了 〔 按 顺序 挑 
选 也 可 以 ， 这 就 相当 于 代理 的 轮 询 了 ) o KE, ERRARE omega 版 的 代码 如 下 : 


#!/usr/bin/env python 


3 -*- encoding: utf-8 -*- 
# Created on 2018-01-02 21:16:44 
# Project: musicTop 


from pyspider.libs.base handler import * 


import random 


headers - ( 
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"Accept": "text/html, application/xhtml+xml, application/xml;q=0.9,image/webp, ima 
ge/apng, */*;q=0.8", 

"Accept-Encoding":"gzip, deflate", 

"Accept-Language": "en-US, en; q=0.9, zh-CN; q=0.8, zh; q=0.7, zh-TW; q=0.6", 

"Cache-Control" 
"keep-alive", 

"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36" 

5 
proxyList = ["192.168.1.99:1080","101.68.73.54:53281", ""] 


"max-age-0", 


"Connection" 


class Handler (BaseHandler): 
crawl config - ( 
# "proxy" :proxy, 
+ "headers": headers 
} 
def init (self): 
url = 'http://vchart.yinyuetai.com/vchart/trends?area-ML&page-' 
pages = ['1', '2', '3'] 
self.urls = [] 
for page in pages: 
self.urls.append(url * page) 


@every (minutes=24 * 60) 
def on_start (self): 
for url in self.urls: 
self.crawl(url, callback-self.index page, 
proxy-random.choice(proxyList), headers-headers) 


Gconfig(age-10 * 24 * 60 * 60) 
def index page(self, response): 
# for each in response.doc('a[href^-"http"]').items(): 
# self.crawl(each.attr.href, callback-self.detail page) 
Tags = response.doc('li[class-"vitem J li toggle date "]').items() 
for subTag in Tags: 
top num - subTag('div[class-"top num"]').text() 
"mvname"]').text() 


mvname subTag ('a[clas 


singer - subTag('a[class-"special"]').text() 
desc score - subTag('h3[class-"desc score"]').text() 
print('$s %s %s $s' $(top num, mvname, singer, desc score)) 
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@config (priority=2) 
def detail page(self, response): 
return ( 


"url": response.url, 


"title": response.doc('title').text(), 


j; 


HAMER AL index page 函数 需要 发 送 请 求 ， 因 此 ， 只 需要 在 回调 这 个 函数 时 随机 挑选 
一 个 代理 加 入 参数 就 可 以 了 。 单 击 怜 虫 页 面 左 侧 预览 栏 右 上 方 的 Run 按钮 测试 一 下 ， 结 果 如 


图 9-48 所 示 。 


@ ses - Eta- ib) x y [) musicTop - Debugger x 
€ 
pyspider » musicTop 

“User-Agent”: "Mozilla/5.0 (Windows NT 10.0; 4 


“proxy”: "101.68. 73. 54: 53281” 


"process": { 


C | © 不 安全 | 192.168.1.80:5000/debug/musicTop 


area-liLépage" 


ox : 
Documentation ( WebDAV Mode 


pages = [1, '2', 

self.urls = [] 

for page in pages: 
self.urls. append (url + page) 


'3] 


h 
"taskid": "be6a6f478b4427f65db5e4d69543a668", 


"callback": "index page" 
h Gevery (ninutes-24 * 60) 
“project”: "musicTop", def on_start (self): 
“schedule”: { for url in self. urls: 
"age": 864000 self. crawl (url, 
back=self. index page, 


‘oxy-randon. choice(proxyList), headers-headers) 


"url: "http: //vchart, yinyuetai, com/vchart/trend 
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“fetch”: { 
"headers": [ 
"Accept": “text/html, application/xhtml 
“Accept-Encoding”: “gzip, deflate”, 4 
“Accept-Language”: “err US,en;q=0.9, zhAN:-0/ 4 
"Cache-Control': "max-age-0", 
"Connection": keep-alive”, 
“User-Agent”: "Mozilla/5.0 Windggf NT 10.0; 
“proxy”: “192.168. 1.99: 1080" 
“process”: { 
“callback” 


“index_page” 4 


h 
“heptane "s p 
"sd web | | html | fol lows 3] messages | 
, age”: 864007 enable css selector helper | = 


response. doc (’ a{href="http"]' ). itens() 
# 
callback=self, detail page) 


| Lli toggle date ^1). itens() 


top mum = 

subTag ( div[class-"top nun"]').text) 
mnane = 

subTag ( a[class-"nvname"]' ). text 0 
singer = 

subTag ( a[class-"special"]').text() 
de: 

subTag ( h3[class-"desc score"]').text() 


mvname, singer, desc score)) 


@onfig(age=10 * 24 * 60 * 60) 
def index page(self, response): 
for each in 
self. crawl (each. attr. href, 
Tags = response. doc(’ li[class="viten 


for subTag in Tags: 


SC score = 


Print('%s Ws Ws Ws W(top num, 


Gconfig(priority=2) 


图 9-48 MERHER 

EER, BE HPE SUD ERI SERT I. JTE, BY A ZEN 

虫 中 添加 一 个 测试 程序 ， 在 每 次 使 用 代理 前 做 个 测试 。 如 果 网 站 是 通过 IP 来 判断 用 户 身 份 
的 ， 就 使 用 该 代理 IP。 如 果 是 通过 User-Agent 来 判断 用 户 身份 ， 那 就 轮 询 或 者 随机 挑选 


User-Agent。 如 果 是 通过 Cookies 来 判断 用 户 ， 那 就 轮 询 或 随机 选 Cookies…… 


BUE SUE — Ar. Temm e5exDx up. 
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总 之 ， 网 站 的 


9.5 本 章 小 结 


Pyspider 与 前 面 的 假 虫 略 有 不 同 。 前 面 的 候 虫 基本 上 都 是 采用 的 类 似 于 深度 优先 的 方法 
MERAH, Wü Pyspider 则 与 众 不 同 地 采用 了 类 似 深 度 优 先 的 方法 。 另 外 ， 其 他 的 爬虫 大 多 都 
是 先 难 后 易 ， 在 写 代 码 时 可 能 比较 困难 ， 但 调试 就 比较 简单 了 即使 没有 IDE 的 配合 ， 调 试 
也 比较 简单 )， 代 码 中 出 现 问题 ， 可 以 很 容易 地 找到 bug 点 。 而 Pyspider 则 相反 ， 在 编写 代 
码 时 能 很 直观 地 看 到 效果 ， 但 调试 起 来 并 不 方便 ， 没 有 相应 的 错误 提示 ， 只 能 靠 经 验 一 遍 遍 
地 检查 才能 找到 bug 点 。 它 作为 怜 虫 还 是 相当 优秀 的 ， 但 是 支持 的 文档 比较 少 ， 有 什么 问 
题 ， 基 本 只 能 靠 自己 慢 慢 地 摸索 ， 还 有 待 于 优化 和 推广 。 
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第 10 章 
< M2 Shenae > 


EREEREER, PEASE TAT MAR, Fe EBS HN A AE SE TP OK J AR o 

以 用 户 的 角度 来 看 ， 他 只 想 获取 网 站 的 数据 ， 对 其 他 的 内 容 完 全 不 感 兴趣 。 以 网 站 方 的 
角度 来 看 ， 他 只 想 为 正常 上 网 用 户 提供 服务 。 为 网 络 机 器 人 《〈 了 Python EH) 提供 数据 并 不 能 
获取 有 效 流量 (利益 ) ， 那 么 网 站 以 技术 ( 反 息 虫 技术 ) 拒绝 网 络 息 虫 ， 也 就 是 理所当然 应 
该 考虑 的 了 。 

双方 都 有 充足 的 理由 ， 使 用 起 “武器 ”来 自然 也 是 毫 不 手软 。 疏 虫 与 反 疏 虫 的 斗争 
- 直 都 在 进行 着 ， 可 能 永远 都 不 会 停止 ， 到 底 是 矛 更 加 尖锐 还 是 盾 更 加 坚固 ， 就 看 各 上 
的 手段 了 。 

疏 虫 在 很 多 场景 下 的 确 是 有 必要 的 ， 但 现在 爬虫 技术 的 使 用 已 经 处 于 失控 状态 。 据 说 目 
前 网 络 流量 中 有 60% 以 上 都 是 由 疏 虫 提供 的 ， 这 就 未 免 有 些 过 分 了 。 而 且 有 些 爬 虫 即使 获取 
不 到 任何 数据 ， 也 会 孜孜 不 倦 地 继续 工作 ， 永 不 停息 。 这 种 失控 的 候 虫 只 会 不 停 地 消耗 资 
源 ， 对 相关 的 双方 都 没有 好 处 。 


防止 他 虫 IP 被 禁 


先 来 假设 一 段 场景 。 一 个 普通 的 网 络 管理 员 ， 发 觉 网 站 的 访问 量 有 不 正常 的 波动 ， 通 常 
第 一 反应 就 是 检查 日 志 ， 查 看 访问 的 IP。 此 时 如 果 发 现 某 一 个 或 几 个 IP. 在 很 短 的 时 间 内 发 
出 了 大 量 的 请 求 ， 比 如 每 秒 10 次 ， 那 么 这 个 IP 就 有 怜 虫 的 嫌疑 ， 正 常用 户 是 不 可 能 有 这 种 
操作 速度 的 ， 就 算是 以 最 快 的 速度 点 击 刷新 按钮 也 不 可 能 每 秒 10 次 。 


10.1.1 RERET 
对 付 这 种 IP， 最 简单 的 方法 是 一 禁 了 之 。 实 际 上 不 管 是 Apache 还 是 Nginx 都 可 以 对 同 
- IP 的 访问 频率 和 并 发 数 做 出 限制 ， 修 改 Apache 或 者 Nginx 的 配置 文件 就 可 以 解决 。 但 在 
Apache 或 Nginx 中 设置 禁止 访问 的 IP 后 ， 需 要 重启 服务 才能 生效 。 所 以 还 需要 考虑 采用 更 
方便 的 方法 。 正 常 来 说 ， 空 间 主机 都 有 主机 管理 面板 ， 找 到 IP 限制 ， 将 疑似 爬虫 的 IP 填 进 
去 就 可 以 了 ,如 图 10-1 所 示 。 


2 MITES 
1IP 拦 载 检测 SS 配置 


图 10-1 [Ri IP 


也 可 以 用 网 站 安全 狗 之 类 的 软件 设置 黑 名 单 。 限 制 访问 IP 的 方法 很 多 ， 任 意 选 一 种 都 能 
达到 目的 。 

这 样 一 禁 了 之 当然 简单 ， 但 是 有 时 候 会 误伤 正常 用 户 。 同 一 IP 大 量 发 送 请 求 ， 只 是 有 疏 
虫 嫌疑 ， 但 并 不 一 定 就 是 仆 虫 。 一 个 人 当然 不 能 每 秒 10 次 的 发 送 请 求 ， 但 10 个 人 呢 ? 要 知 
道 目前 主流 使 用 的 是 IPv4 协议 ，IP 数量 严重 不 足 ， 很 多 局 域 网 都 是 使 用 NAT 共用 一 个 公 网 
IP 的 ， 一 个 大 的 局 域 网 每 秒 发 送 10 个 请 求 也 不 奇怪 。 反 有 疏 虫 的 目的 是 过 滤 有 爬虫， 而 不 是 宁 
可 封锁 一 千 也 不 放 过 一 个 ， 所 以 还 需要 其 他 的 方法 来 分 辨 肘 虫 。 

先 写 一 个 简单 的 Python 程序 来 连接 网 站 ， 再 跟 浏 览 器 连接 网 站 比较 一 下 。 在 Burp Suite 
中 可 以 非常 清楚 地 看 到 它们 的 区 别 。 连 接 程序 connWebWithProxy.py 的 代码 如 下 : 


#!/usr/bin/env Python3 


#=*= coding:utf-8 -*- 


import urllib.request 
import sys 


proxyDic - ('http': 'http://127.0.0.1:8080') 


def connWeb (url): 
proxyHandler - urllib.request.ProxyHandler (proxyDic) 
opener = urllib.request.build opener (proxyHandler) 
urllib.request.install opener (opener) 
try: 

response = urllib.request.urlopen (url) 

htmlCode = response.read().decode('utf-8') 
except Exception as e: 

print("connect web faild...") 


print (e) 
else: 
print (htmlCode) 
me name == "main us 


url = sys.argv[1] 


371 


Python 网 络 礁 虫 实战 〈 第 2 版 ) 


connWeb (url) 


注意 : — http://127.0.0.1:8080 是 Burp Suite 的 监听 端口 。 
执行 命令 : 
python connWebWithProxy.py study.163.com 


执行 结果 如 图 10-2 所 示 。 


Bein 
Burp intruder Repeater Window Help 

Sequencer | Decoder | Comparer | Extender | Project options | Useroptons | Alens | 
Jue sme [ Scammer | Wr | Repeater | 


intercept [HTTP history | y [ WebSockats history | Options | 


te Free Edition v1.21 - Tempor. 


(Fiter: Hiang CSS. image and general binary content le 
Host | Method | URL Params |Edted | Status |Length |MI 
f hip //study 163.com em |r 


Band - python corniWebWibProxypy hup//study.163.com 
E <i> cnc - python c. Search 
link v0.4.8 [git:ds6Sad] Copyright (c) 2612-2616 Marti| 
ttp: //mridgers.github.io/clink 


icrosoft Windows [版 本 10.0.16299.431] 


AngQWINDOWS19 C :\Users\king\Desktop 
Headers | Hex »[pythen connWebWithProxy.py http://study.163.com 

eer / HTP/ TL 

Howe study. 162.com 


User-Agent: Python-urllib/3.e 


10-2. Python 程序 连接 网 站 
可 以 看 到 使 用 Python 程序 连接 网 站 时 ，User-Agent 的 值 是 Python-urlib/3.6。 在 浏览 器 
中 ， 使 用 Burp Suite 的 监听 端口 为 代理 ， 连 接 网 站 得 到 的 结果 如 图 10-3 所 示 。 


Bl Burp suite Fe 
| Burp muudet Repeater Window Help 


dition v1.7.2) - Temporary Project = HH 


Sequencer | Decoder | Comparer | Extender | Proectopions | Useroptions | aens | 
Target Spdor ‘Scanner Intruder Í Ropoator | 
incen J HTTP istry | wevsockets nist Options 
Fitar Hiding CSS, image and general binary content 四 | 
| Host | Method | URL [Params |Edited | Status | Length | Mi 


1 apVstudy 163com GET d a 8 
(2. [Btpzistudy 163 com. GET 


O RR 
€ > X Q |O study.163.com 
search 


translation 


tools 


图 10-3 浏览 器 连接 网 站 
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浏览 器 连接 网 站 时 ，User-Agent 显示 的 是 浏览 器 的 信息 。 通 过 对 比 可 以 得 知 ， 服 务 器 端 
如 果 发 现 请 求 的 User-Agent 中 含有 Python 等 字符 串 的 ， 那 必定 是 机 器 人 Python fi) 发 
送 的 请 求 。 

因此 ， 网 管 就 可 以 得 出 结论 : 凡是 在 某 个 时 间 段 频繁 连接 服务 器 ， 并 且 发 送 请 求 的 User- 
Agent 中 含有 Python 等 字符 串 的 就 是 仆 虫 。 对 这 类 IP 一 封 了 之 ， 必 定 没 错 。 


10.1.2 TE RS SEX] 


ER IP RAS, "eH EY ASRS — B. IREAS SSH. Tiki; 
虑 的 就 是 User-Agent FINE fry wy pe) pg] Bs, ERAD HANA. 853€ User-Agent 是 如 此 
WHR, TA ARI, Hee ERE, WE DS ae d. 

CSE, JUL EET ET FERE BUE BFE o 

首先 ， 在 每 次 请 求 时 添加 一 个 delay 间隔 时 间 。 这 个 时 间 既 要 兼顾 效率 ， 不 宜 设 置 得 太 
长 ， 也 不 能 设置 得 太 短 ， 避 免 被 服务 端 发 觉 。 一 般 来 说 5-10 秒 都 是 没 问 题 的 。 不 要 使 用 一 
个 固定 值 ， 使 用 random 随机 选择 delay 的 值 最 佳 。 

其 次 ， 收 集 User-Agent， 组 成 一 个 User-Agent 池 。 每 次 发 送 请 求 时 ， 从 User- 
Agent 池 中 随机 获取 一 个 User-Agent， 让 服务 器 认为 发 送 请 求 的 不 是 网 络 仆 虫 ， 而 是 一 
个 大 型 的 局 域 网 。 在 前 面 章 节 中 的 候 虫 都 是 这 么 做 的 。 这 里 再 举 一 个 简单 的 例子 ， 把 
connWebWithProxy.py 稍微 修改 一 下 ， 最 终 得 到 的 connWebWithUserAgent.py 程序 代码 
如 下 : 


#!/usr/bin/env python3 
#-*= coding:utf-8 -*- 


import urllib.request 
import sys 
import random 


import time 


proxyDic = ('http': 'http://127.0.0.1:8080'} 
userAgentDic = { 

"淘宝 浏览 器 2.0 on Windows 7 x64': 'Mozilla/5.0 (Windows NT 6.1; WOW64) 
AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 
Safari/536.11', 

"猎豹 浏览 器 2.0.10.3198 急速 模式 on Windows 7 x64': 'Mozilla/5.0 (Windows 
NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 
Safari/537.1 LBBROWSER', 

"ESHA 2.0.10.3198 兼容 模式 on Windows 7 x64': 'Mozilla/5.0 
(compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 
2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 
6.0; .NET4.0C; .NET4.0E; LBBROWSER)', 
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"猎豹 浏览 器 2.0.10.3198 兼容 模式 on Windows XP x86 IE6': 'Mozilla/4.0 
(compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; 
LBBROWSER) ', 

"猎豹 浏览 器 1.5.9.2888 急速 模式 on Windows 7 x64': 'Mozilla/5.0 (Windows NT 
6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 
Safari/535.11 LBBROWSER', 

' 猎 豹 浏览 器 1.5.9.2888 兼容 模式 on Windows 7 x64': 'Mozilla/4.0 (compatible; 
MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET 
CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)', 

"00 浏览 器 7.0 on Windows 7 x64 IE9': 'Mozilla/5.0 (compatible; MSIE 9.0; 
Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 
3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; 
QOBrowser/7.0.3698.400)', 

"QO 浏览 器 7.0 on Windows XP x86 IE6': 'Mozilla/4.0 (compatible; MSIE 6.0; 
Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)', 

'360 安全 浏览 器 5.0 自 带 TES 内 核 版 on Windows XP x86 IE6': 'Mozilla/4.0 
(compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 
732; .NET4.0C; .NET4.0E; 360SE) ', 

"360 安全 浏览 器 5.0 on Windows XP x86 IE6': 'Mozilla/4.0 (compatible; MSIE 
6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E) ', 

"360 安全 浏览 器 5.0 on Windows 7 x64 IE9': 'Mozilla/4.0 (compatible; MSIE 
7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 
3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E) ', 

"360 急速 浏览 器 6.0 急速 模式 on Windows XP x86': 'Mozilla/5.0 (Windows NT 
5.1) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1', 

"360 急速 浏览 器 6.0 急速 模式 on Windows 7 x64': 'Mozilla/5.0 (Windows NT 6.1; 
WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1', 

'360 急速 浏览 器 6.0 兼容 模式 on Windows XP x86 IE6': 'Mozilla/4.0 
(compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E) 


1 
" 


'360 急速 浏览 器 6.0 兼容 模式 on Windows 7 x64 IE9': 'Mozilla/4.0 (compatible; 
MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET 
CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E) ', 

'360 急速 浏览 器 6.0 IE9/IE10 模式 on Windows 7 x64 IE9': 'Mozilla/5.0 
(compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 
2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 
6.0; .NET4.0C; .NET4.0E) ', 

"搜狗 浏览 器 4.0 高 速 模式 on Windows XP x86': 'Mozilla/5.0 (Windows NT 5.1) 
AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 SE 2.x 
MetaSr 1.0', 

' 搜 狗 浏览 器 4 .0 兼容 模式 on Windows XP x86 IE6': 'Mozilla/4.0 (compatible; 
MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; 
SE 2.X MetaSr 1.0) ', 
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"Waterfox 16.0 on Windows 7 x64': 'Mozilla/5.0 (Windows NT 6.1; Win64; 
x64; rv:16.0) Gecko/20121026 Firefox/16.0', 

'iPad': 'Mozilla/5.0 (iPad; U; CPU OS 4 2 1 like Mac OS X; zh-cn) 
AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 
Safari/6533.18.5', 

'Firefox x64 4.0b13pre on Windows 7 x64': 'Mozilla/5.0 (Windows NT 6.1; 
Win64; x64; rv:2.0bl3pre) Gecko/20110307 Firefox/4.0b13pre', 

'Firefox x64 on Ubuntu 12.04.1 x64': 'Mozilla/5.0 (X11; Ubuntu; Linux 
x86 64; rv:16.0) Gecko/20100101 Firefox/16.0', 

'Firefox x86 3.6.15 on Windows 7 x64': 'Mozilla/5.0 (Windows; U; 
Windows NT 6.1; zh-CN; rv:1.9.2.15) Gecko/20110303 Firefox/3.6.15', 

'Chrome x64 on Ubuntu 12.04.1 x64': 'Mozilla/5.0 (X11; Linux x86 64) 
AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', 

'Chrome x86 23.0.1271.64 on Windows 7 x64': 'Mozilla/5.0 (Windows NT 
6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 
Safari/537.11', 

"Chrome x86 10.0.648.133 on Windows 7 x64': 'Mozilla/5.0 (Windows; U; 
Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) 
Chrome/10.0.648.133 Safari/534.16', 

'IE9 x64 9.0.8112.16421 on Windows 7 x64': 'Mozilla/5.0 (compatible; 
MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0)', 

'IE9 x86 9.0.8112.16421 on Windows 7 x64': 'Mozilla/5.0 (compatible; 
MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)', 

'Firefox x64 3.6.10 on Ubuntu 10.10 x64': 'Mozilla/5.0 (X11; U; Linux 
x86 64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) 
Firefox/3.6.10', 

'Andorid 2.2 自 带 浏览 器 ， 不 支持 HTML5 视频 ' : 'Mozilla/5.0 (Linux; U; Android 
2.2.1; zh-cn; HTC Wildfire A3333 Build/FRG83D) AppleWebKit/533.1 (KHTML, like 
Gecko) Version/4.0 Mobile Safari/533.1', 

H 


def connWeb (url): 
proxyHandler - urllib.request.ProxyHandler (proxyDic) 
opener - urllib.request.build opener (proxyHandler) 
urllib.request.install opener (opener) 
headers = ('User-Agent': random.choice(list(userAgentDic.values()))) 
delay = random.choice(range(5, 11)) 
try: 
request - urllib.request.Request(url, headers-headers) 
response = urllib.request.urlopen (request) 
htmlCode - response.read().decode('utf-8') 
except Exception as e: 
print("connect web faild...") 
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if | name == 


print (e) 


else: 


print (htmlCode) 
time.sleep (delay) 


es WR ts 


url = sys.argv[1] 


connWeb (url) 

在 终端 下 执行 命令 
python connWebWithUserAgent.py http://study.163.com 
执行 结果 如 图 10-4 所 示 。 
B 


Burp Intruder Repeater Window Help 


Filter: Hiding CSS, image and general binary content 


# 4 Host 


I 
k 
$ 


GET / HTTP/1.1 
Host: study. 163.com 
|ser-Agent: Mozilla/4.0 (compatible; 
ERES 732; .NET4.0C; .NET4.0E; 
Connection: close 


BEGG maar 


Method | URL 
[Bl EZA: cmd - python. connWebWithUserAgent.py http://study.163.co1 


E <1> 管理 员 : cmd - pyth.. 


link v6.4.8 [git:dS65ad] Copyright (c) 2012-2016 Marti 


ttp: //mridgers.github.io/clink 
icrosoft Windows [版 本 10.0.16299.431] 


ingBwINDOWS19 k 


Search 


python connWebWithUserAgent.py http://study.163.com 


10-4 Python 隐藏 特征 连接 网 站 


QQ 浏览 器 发 出 的 。 如 果 觉 得 还 不 够 隐蔽 ， 还 可 以 在 headers 中 加 上 Accept、Host…… 
发 出 的 请 求 更 像 浏览 器 。 另 外 ， 在 程序 中 还 随机 地 暂停 了 5-10 秒 ， 让 程序 看 起 来 更 像 是 人 
在 操作 ， 尽 量 避 免 被 服务 端的 管理 员 发 觉 。 
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可 以 看 到 ， 这 次 连接 随机 选择 了 QQ 浏览 器 的 User-Agent， 让 服务 端 认 为 本 次 连接 是 由 


iE d 


10.2. 在 他 虫 中 使 用 Cookies 


对 付 一 般 简单 的 静态 网 站 ， 使 用 delay 和 模拟 浏览 器 基本 上 就 够 用 了 ， 但 是 有 些 具有 商 
业 价 值 的 网 站 ， 为 了 避免 商业 损失 会 采取 各 种 手段 防止 怜 虫 朴 取 数据 。 这 就 不 是 能 用 简单 方 
法 来 解决 的 问题 了 。 


10.2.1 通过 Cookies RER 


以 浏览 study.163.com 为 例 ， 捕 捉 浏览 器 发 送 的 请 求 ， 然 后 和 运行 
connWebWithUserAgent.py 捕捉 得 到 的 结果 比较 一 下 ， 如 图 10-5 所 示 。 


XH) RHE) BON) BAG HHA SHE) 图像 () BO) SEV FAH 
SGAHSxX|' R@BsRSx| + eala RA H I i P 
Burp Intruder Repeater Windd| Burp Intruder Repeater Window Help 


oder | Comparer 


Host: study.163.com 
Upgrade-Insecure-Requests: 1 
User-Agent: Mozilla/5.0 (Windows NT 
Gecko) Chrome/66.0.3359.181 Safari/S 

g] Accept: 

“od text/html, appli 


[EJ ESI ESI ESI: [Ex [ESIESIESIUZ 
[736 x 581 x 24 BPP 4/5 10036736 x581x24 BPP 5/5 100% 100.32 KB/ 1.22 MB 2018/5/19 / 21:47:07 
图 10-5 ”比较 捕捉 结果 
我 们 可 以 发 现 Python 程序 发 送 的 请 求 和 浏览 器 发 送 的 请 求 相 比 ， 除 了 缺少 Host. 
Accept, Accept-Language 等 部 分 外 《这些 缺少 的 部 分 都 可 以 在 headers 中 自行 添加 ) ， 还 缺 
少 一 个 重要 部 分 Cookies 。 
Cookies 可 以 简单 理解 为 服务 器 发 给 客户 端的 身份 证 。 这 个 Cookies 是 浏览 器 在 连接 服务 
器 时 自动 生成 的 〈 大 部 分 时 候 都 是 通过 用 户 登 录 来 获取 Cookies， 有 时 候 登录 还 特别 复杂 ， 
有 验证 码 、 验 证 条 什么 的 ) ， 每 次 请 求 发 送 的 Cookies 都 不 同 。 所 以 服务 器 可 以 通过 检查 
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Cookies 来 判断 连接 过 来 的 请 求 到 底 是 来 自 于 浏览 器 还 是 来 自 于 机 器 人 程序 。 


10.2.2 $$ Cookies BTE t 

ERRA, Sc bHA. MEMMERS AMR, RAHA Cookies PAK 
FARER ARE SU]. Him BEI KP ERIS I PE OR, aS Ae d 
Cookies 相应 的 部 分 。 这 样 就 可 以 “ 骗 过 ”服务 器 继续 获取 数据 了 。 这 种 方法 并 不 总 是 有 效 
(比如 网 站 中 含有 token 验证 的 就 不 行 ) ， 只 能 解决 部 分 问题 。 

原理 就 是 先 用 浏览 器 登录 一 遍 网 站 ， 并 截取 得 到 Headers 和 Cookies 信息 ， 然 后 使 用 息 
虫 利用 现 有 的 Headers 和 Cookies 伪装 成 浏览 器 ， 继 续 从 网 站 服务 端 获 取 数 据 。 

还 是 以 http:/study.163.com 为 例 。 先 打开 页 面 登录 ， 然 后 用 Burp Suite 截取 登录 后 的 
Headers 和 Cookies， 如 图 10-6 所 示 。 


ABFE 极 客 战 记 网 易 100 分 中 国 大 学 MOOC 品 
已 登录 


我 的 学 习 HE BME “成 为 课程 提供 方 hstking p 


E ite 
Burp Intruder Repeater Window Help 


国 Request to http://study.163.com:80 [223.252.199 7] 


oop) (ERE) (act [Eee | 回国 


Headers & Cookies 
ache-Control: max-age=0 


pgrade-Insecure-Requests: 1 


Jaer-Agenc: Mozilla/5.0 (Windows NT 10.0; Winé4; xé4) AppleWebKit/537.3€ (KHTML, 
ike Gecko) Chrome/£6.0.3359.181 Safari/537.36 
ccept: 
ext/html, application/xhtml+xm1, application/xml; eos 9, image/ vebp, image/apng, */ *; q=0.8 
iccept- bange: zh-CN, zh; q*0. 9, en-US; q-0.8, en; q=0 
= NU 

38ebde4 caf092c 

52d7bcS £78b7a‘ 

zf9b887 
NTESSTUDYSI-f7fG4E 4770444 
EDuvEEDEVIcE=45254c 3dabead me=1294 «15216 
3071e8a 348905; 

=(orgar organi 


图 10-6 登录 后 截取 Headers 和 Cookies 


在 这 个 Cookies 中 就 包含 了 用 户 登录 的 凭证 。 接 下 去 就 可 以 利用 已 获取 的 Headers 和 
Cookies 编写 爬虫 程序 fakeBrowser.py， 将 Headers 和 Cookie 加 入 到 程序 内 ， 如 图 10-7 所 
ES 
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en See 880 GEM SEN) 
sS88s68\ 4 wmiocim'itt 


389 Ef name 一， main ，: 
35 url ~ sys.argv[ll 


40 response = requests.get(url, headerseheaders, cookieseccokies, proxies=proxyDic, 


图 10-7 fakeBrowser.py 代码 


注意 : 图 10-7 中 一 块 空白 是 为 了 隐藏 代码 中 的 个 人 敏感 信息 。 
在 终端 下 执行 命令 : 


python fakeBrowser.py http://study.16 


使 用 Brup Suite RHUER FEF AGN requests, WE 10-8 所 示 。 


3.com 


timeout=3) 


A spng - Irfanview 
DAA RAD BON HNO FEV HNH 
GE EE X| ) Had |ODiwjQRQes 


13 Pia 


Send to Sequencer 


Burp Suite Free Edition v1.7.21 - Temporary Project = n x 
Burp Intruder Repeater Window Help 
Sequencer Decoder Comparer | Extender I Project options | User options | Alerts 
Target Spider I ‘Scanner Intruder I Repeater 
intercept [ HTTP histoy | WebSockets history | Options | 
Fiter: Hiding CSS, image and general binary content «= SSE RENT | EI 
# «| Host | Params Edited | Status | Length | 
1 — http//study.163.com GET / 国 [s] 
2 —— http//study.163.com cer 7s 
http://study.163.com/ 
| Add to scope " = 
| Fere RATER Spider from here 
ES SFT Do an active scan [i 
| HERREDER Send to Intruder crit 
Send to Repeater CuieR 
[Raw | Params | Headers [ Hex 
GET / HTTP/1.1 


Host: study. 163.com 
User-Agent: Mozilla/5.0 (Windows NT 10.0; vineal 


Request in browser 


like Gecko) Chrome/66.0.3359.181 Safari/537-36 
Accept: 
text/html,application/xhtmlasml,application/sml 
Connection: close 


Engagement tools [Pro version only] 


| Show new history window 
Add comment 


[720 x 567 x24BPP 8/8 100% 70.62 KB/ 1.37 MB 2018/5/2: 


Highlight. 


3 / 00:57:11 


10-8 PUE 


虫 的 request 
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Python WERKA (S8 2 版 


最 后 查看 比较 结果 ， 如 图 10-9 所 示 。 


Bas dion v1 - Tempon 
Burp irtrder Repeater Window Help 


n 
Tag | Pio [| Speer | — seme | er Repeater 
Sequence | Decode [Comoara] Extender | Poet optons [User options | Aers 


m Load 
Wl Word compare of #1 and #2 (25 differerces) - In] x Remove. 
(cen 
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些 会 自动 变化 的 变量 ， 一 般 不 影响 使 用 效果 。 也 可 以 将 这 些 自动 变化 的 变量 挑 出 来 ， 不 写 入 
到 疏 虫 程序 内 ， 也 不 会 影响 最 终 效果 。 将 疏 虫 得 到 的 结果 载 入 浏览 器 中 ， 如 图 10-10 所 示 。 
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10.2.3 zh nis e d 

作为 服务 器 一 方 ， 到 了 这 一 步 ， 服 务 器 已 经 无 法 从 发 送 的 请 求 中 分 辨 出 候 虫 了 。 现 在 只 
能 苦 练 内 功 ， 给 候 虫 增加 难度 。 把 候 虫 仆 取 数据 的 成 本 上 升 到 无 利 可 图 的 地 步 ， 以 此 来 拒绝 
Fd Zn fe cb ftr; ed 

JCA Hn fe d fe po ee RERO TESA KA CE DH HR Hn P EB EF PIOS 
使 用 JavaScript 等 方式 动态 加 载 。 这 样 一 来 ， 机 器 人 发 送 的 请 求 并 不 会 “激活 ”JS 脚本 ， 也 
就 得 不 到 数据 。 目 前 很 多 网 站 都 采用 了 这 种 方式 来 防止 疏 虫 。 可 以 说 ， 这 种 方法 的 确 很 好 
用 ， 彻 底 改 变 了 疏 虫 运行 模式 ， 疏 虫 再 也 不 能 简单 快捷 地 获取 到 数据 了 。 


10.2.4 ”使 用 浏览 器 获取 数据 

动态 加 载 数据 也 不 是 无 法 破解 的 。 既 然 模拟 浏览 器 的 方法 不 能 获取 到 数据 ， 那 就 直接 使 
用 浏览 器 的 核心 来 获取 数据 。 

前 面 章节 中 提 到 过 的 Selenium 和 PhantomJS 都 是 采用 这 种 方法 来 获取 数据 的 。 只 是 这 种 
方法 的 速度 非常 慢 ， 如 果 目 标 只 有 几 十 页 ， 还 能 忍受 ， 如 果 目 标 达到 了 上 百 页 ， 算 一 下 投入 
的 成 本 和 得 到 的 数据 ， 那 还 是 放弃 吧 。 这 也 是 服务 器 反 私 虫 的 一 种 方法 ， 让 候 虫 付出 的 成 本 
和 收获 不 成 比例 ， 扑 虫 自然 就 没有 动力 了 。 


10.3 本 章 小 结 


疏 虫 的 基本 原理 就 是 这 样 了 。 简 单 的 怜 虫 基本 上 就 是 直 来 直 去 地 从 静态 页 面 获取 数据 、 
清洗 数据 ， 几 乎 都 是 在 Request 的 headers 里 做 手脚 。 稍 微 复杂 一 点 的 候 虫 ， 则 是 通过 伪造 
Cookies 或 者 使 用 浏览 器 内 核 从 网 站 获取 数据 。 到 这 一 步 就 差不多 把 爬虫 获取 数据 的 路 子 走 
到 头 了 。 非 要 更 进一步 ， 那 就 只 有 使 用 代理 池 轮 询 这 种 终极 手段 了 。 

再 高 级 一 点 的 聆 虫 技 术 是 带 有 数据 分 析 和 存储 功能 的 。 作 为 个 人 用 户 而 言 ， 只 要 能 疏 取 
到 数据 就 算 成 功 ， 后 面 的 数据 分 析 和 存储 几乎 用 不 上 。 这 一 点 提出 来 后 供 读者 参考 。 

最 后 祝 大 家 在 Python 网 络 疏 虫 技术 上 不 断 进步 。 
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